高职教育 > 计算机类

数据挖掘与机器学习

书号:9787113310516 套系名称:“十四五”高等职业教育新形态一体化教材

作者:苏叶健 黄伟 唐美霞 出版日期:2024-03-01

定价:59.80 页码 / 开本:无 /16

策划编辑:王春霞 责任编辑:王春霞 彭立辉

适用专业:计算机类 适用层次:高职教育

最新印刷时间:2024-03-01

资源下载
教学课件 教学素材
习题答案 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 本书以项目为导向,全面介绍数据挖掘与机器学习的流程和 Python 数据分析库的应用,详细讲解利用Python 解决实际问题的方法。全书共分九个项目。项目一介绍搭建数据挖掘与机器学习的编程环境;项目二利用农产品信息可视化分析项目介绍 NumPy、pandas 与 Matplotlib 库的应用;项目三至项目八利用真实项目,介绍线性回归、逻辑回归、决策树、随机森林、朴素贝叶斯、 K 近邻、聚类分析、神经网络;项目九结合之前所学的数据挖掘与机器学习技术,进行企业综合案例数据分析。各项目都包含了实训或课后作业,通过练习和操作实践,帮助读者巩固所学的内容。
    本书适合作为高等职业院校大数据技术、人工智能技术应用、软件技术等相关专业的教材,也可作为大数据技术爱好者的自学用书。
    
  • 随着云时代的来临,数据挖掘与机器学习技术将帮助企业用户在合理时间内获取、分析与处理数据,从海量数据中挖掘出有价值的数据,帮助企业在商业分析、生产管理等应用领域实现智能化、数字化转型。数据挖掘与机器学习作为一门前沿技术,广泛应用于物联网、云计算、移动互联网等战略性新兴产业,人才需求紧缺,特别是有实践经验的数据挖掘与机器学习人才更加受到企业的青睐。为了服务产业发展、满足日益增长的人才需求,很多高职院校开设了数据挖掘与机器学习、数据分析等课程。
    本书落实立德树人根本任务,坚定文化自信,践行党的二十大提出的“科技是第一生产力”等相关精神,结合数据挖掘与机器学习的项目开发需求,以项目为导向,采用任务驱动的方式将数据挖掘与机器学习常用技术和真实案例结合起来,深入浅出地介绍数据挖掘与机器学习项目开发和相关知识的应用。本书具有如下特色:
    (1)各项目紧扣任务需求展开,不堆积知识点,着重于面向岗位实际项目解决方案的实施;通过从任务描述到任务实施这一完整工作流程的体验,使读者真正掌握 Python 数据挖掘与机器学习技术。
    (2)注重在实际项目中总结相关知识,理实一体,让读者明确如何利用所学知识解决问题;通过实训和课后练习巩固所学知识,真正理解并能够应用所学知识。
    (3)以 Python 编程语言和 pandas 等开发包为技术环境,与大多数高职院校的大数据技术、人工智能技术应用、软件技术等专业的课程体系实现衔接。
    (4)各项目附有课后作业题,提供了教学课件、案例代码等配套资源,同时还通过在线开放课程提供教学视频、实训指导、习题库等丰富的教学资源,可通过中国铁道出版社有限公司官网https://www.tdpress.com/51eds/ 下载。
    本书由苏叶健、黄伟、唐美霞任主编,贾瑞民、段仕浩任副主编。在本书的编写过程中,参考了一些相关著作和文献,在此向这些文献的作者深表感谢。
    由于编写时间仓促,加之编者水平有限,书中疏漏与不妥之处在所难免,恳请读者批评指正,E-Mail:funnymickey@qq.com。
    编者
    2023 年 10 月
    
    
  • 项目一 搭建数据挖掘与机器学习编程环境 1
    任务一 安装 Python2
    任务描述 2
    相关知识 2
    一、初识数据挖掘与机器学习 .2
    二、初识 Python .5
    三、了解 Python 的 Anaconda 发行版 .6
    任务实施 6
    一、在 Windows 操作系统中安装 Anaconda 发行版 6
    二、体验 Jupyter Notebook .9
    任务二 安装 PyCharm 14
    任务描述 14
    相关知识 15
    一、初识 PyCharm .15
    二、PyCharm 中的输入与输出 .15
    任务实施 16
    一、安装 PyCharm .16
    二、使用 PyCharm .21
    三、建立一个 PyCharm 项目 23
    项目总结 24
    课后作业24
    项目二 农产品信息可视化分析——NumPy、pandas 与 Matplotlib 库 26
    任务一 分析农产品类型情况 27
    任务描述 27
    相关知识 27
    一、创建数组对象 .27
    二、数组基本操作 .31
    任务实施 34
    一、用水稻类型数量创建数组 .34
    二、对品种数量进行排序 .34
    三、分析水稻类型数量的占比情况 .35
    任务实训 35
    实训一 分析小麦类型数量 .35
    任务二处理农产品基本信息数据? 36
    任务描述 36
    相关知识 36
    一、数据读取与写入 .36
    二、pandas 数据结构 .40
    三、pandas 数据处理 .44
    任务实施 56
    一、读取农产品基本信息数据 .56
    二、缺失值检测与处理 .56
    三、异常值检测与处理 .57
    四、重复值检测与处理 .58
    五、存储数据 .59
    任务实训 59
    实训二 处理小麦基本信息数据 .59
    任务三分析农产品数量情况 60
    任务描述 60
    相关知识 60
    一、基础语法和常用参数 .60
    二、绘制基本图形 .64
    任务实施 70
    一、分析省级以上部门审定数量 .71
    二、分析水稻品种数量 .72
    三、分析各地审定水稻品种分布 .74
    四、分析水稻品种数量发展趋势 .75
    任务实训 77
    实训三 分析小麦生长情况 .77
    项目总结? 78
    课后作业 78
    项目三 建筑工程混凝土抗压强度检测——线性回归 . 80
    任务一 构建建筑工程混凝土抗压强度检测模型? 81
    任务描述 81
    相关知识 81
    任务实施 84
    一、读取混凝土成分数据 .84
    二、对自变量和因变量进行可视化 .85
    三、构建一元线性回归检测模型 .86
    四、对混凝土抗压强度进行检测 .86
    五、对检测结果进行可视化 .87
    六、构造一元线性回归方程 .88
    任务实训 88
    实训一 构建建筑物能效检测模型 .88
    任务二评估建筑工程混凝土抗压强度检测模型? 89
    任务描述 89
    相关知识 89
    任务实施 92
    一、使用平均绝对误差指标评估模型 .92
    二、使用均方误差指标评估模型 .92
    三、使用可解释方差指标评估模型 .93
    四、使用 R 方指标评估模型 .93
    任务实训 93
    实训二 评估建筑物能效检测模型 .93
    任务三 优化建筑工程混凝土抗压强度检测模型? 94
    任务描述 94
    相关知识 94
    任务实施 97
    一、构建多元线性回归检测模型 .97
    二、对混凝土抗压强度进行检测 .98
    三、对预测结果进行可视化 .98
    四、构造多元线性回归方程 .99
    五、评估多元线性回归检测模型 .99
    任务实训 100
    实训三 优化建筑物能效检测模型 .100
    项目总结 101
    课后作业101
    项目四 电商平台运输行为预测——逻辑回归103
    任务一处理电商平台运输行为数据? 104
    任务描述 104
    相关知识 104
    一、哑变量处理 .105
    二、离散化处理 .107
    三、属性构造 . 110
    任务实施  111
    一、读取电商平台运输行为数据 . 111
    二、哑变量处理 . 115
    三、属性构造 . 115
    任务实训  116
    实训一 处理送货卡车运输行为数据 . 116
    任务二 构建电商平台运输行为预测? 117
    任务描述  117
    相关知识  117
    任务实施 122
    一、构建逻辑回归模型 .122
    二、绘制运输预测结果柱形图 .124
    任务实训 125
    实训二 构建送货卡车运输行为预测模型 .125
    任务三评估与优化电商平台运输行为预测126
    任务描述 126
    相关知识 126
    一、混淆矩阵、准确率与召回率 .126
    二、ROC 曲线 129
    三、样本平衡 .131
    任务实施 134
    一、评估电商平台运输行为预测 .134
    二、利用样本平衡进行模型优化 .136
    三、过采样后的模型效果 .137
    任务实训 139
    实训三 评估送货卡车运输行为预测模型 .139
    项目总结 140
    课后作业140
    项目五 加工厂玻璃类别识别——决策树、随机森林 143
    任务一 处理玻璃成分数据? 144
    任务描述 144
    相关知识 144
    一、数据标准化 .144
    二、数据降维 .148
    任务实施 153
    一、读取玻璃类别数据 .153
    二、使用标准差标准化数据 .154
    三、使用 PCA 进行数据降维 .155
    任务实训 156
    实训一 处理印刷品圆筒成分数据 156
    任务二 构建加工厂玻璃类别识别模型 157
    任务描述 157
    相关知识 157
    任务实施 159
    一、导入开发库 .159
    二、拆分训练集和测试集 .160
    三、构建决策树模型 .160
    四、评估决策树模型 .160
    任务实训 161
    实训二 构建印刷品圆筒成分识别模型 .161
    任务三 评估与优化加工厂玻璃类别识别模型 161
    任务描述 161
    相关知识 162
    一、K 折交叉验证与 GridSearch 网络搜索 .162
    二、随机森林 .165
    任务实施 167
    一、使用 GridSearch 网络搜索进行模型调优 .167
    二、构建随机森林模型 .169
    任务实训 171
    实训三 优化印刷品圆筒成分识别模型 .171
    项目总结172
    课后作业 172
    项目六 运输车辆安全驾驶行为分析——朴素贝叶斯、K 近邻 174
    任务一 构建运输车辆安全驾驶行为分析模型 175
    任务描述 175
    相关知识 175
    一、高斯朴素贝叶斯 .176
    二、多项式分布朴素贝叶斯 .177
    任务实施 178
    一、读取并探索驾驶行为数据 .178
    二、处理驾驶行为数据 .182
    三、构建高斯朴素贝叶斯模型 .186
    四、构建多项式分布朴素贝叶斯模型 .189
    任务实训 192
    实训一 构建驾驶行为分析模型 .192
    任务二 优化运输车辆安全驾驶行为分析模型?? 193
    任务描述 193
    相关知识 193
    一、K 近邻 .193
    二、对比分析法 .196
    任务实施 197
    一、构建 K 近邻模型 197
    二、评估 K 近邻模型 198
    三、对比朴素贝叶斯和 K 近邻模型 199
    任务实训 200
    实训二 优化驾驶行为分析模型 .200
    项目总结200
    课后作业 201
    项目七 新闻文本分析——聚类 .203
    任务一 处理新闻文本数据204
    任务描述 204
    相关知识 204
    一、文本数据处理 .204
    二、特征提取 .207
    任务实施 208
    一、读取新闻文本数据 .208
    二、分词和去停用词 .210
    三、特征提取 . 211
    任务实训 212
    实训一 处理期刊论文文本数据 .212
    任务二 构建新闻文本聚类模型?213
    任务描述 213
    相关知识 213
    一、K-Means 213
    二、DBSCAN .216
    任务实施 219
    一、构建 K-Means 模型 219
    二、构建 DBSCAN 模型 .222
    任务实训 223
    实训二 构建期刊论文文本聚类模型 .223
    项目总结 224
    课后作业 224
    项目八 中草药识别——神经网络226
    任务一 处理中草药图像数据? 227
    任务描述 227
    相关知识 227
    一、读取、显示、保存图像数据 .227
    二、图像缩放 .228
    三、灰度化处理 .230
    四、二值化处理 .231
    任务实施 233
    一、查看中草药图像数据 .233
    二、图像缩放 .234
    三、灰度化处理 .234
    四、二值化处理 .235
    任务实训 237
    实训一 处理农作物种子图像数据 .237
    任务二 构建中草药识别模型 238
    任务描述 238
    相关知识 238
    任务实施 241
    一、构建 BP 神经网络模型 241
    二、评估模型 .242
    任务实训 242
    实训二 构建 BP 神经网络进行农作物种子预测 242
    项目总结243
    课后作业? 243
    项目九 电信运营商用户分析 245
    任务一 处理电信运营商用户信息数据? 246
    任务描述 246
    相关知识 246
    任务实施 247
    一、数据去重与降维 .247
    二、合并数据 .248
    三、处理缺失值与异常值 .253
    任务实训 254
    实训一 处理电信用户信息数据 .254
    任务二构建电信运营商用户分群模型
    相关知识 255
    任务实施 255
    一、分析用户基本信息 .255
    二、构建 K-Means 模型 265
    任务实训 270
    实训二 建立电信运营用户信息分群模型 .270
    任务三 构建电信运营商用户流失预测模型?271
    任务描述 271
    相关知识 271
    任务实施 271
    一、特征值提取 .271
    二、自定义模型构建函数 .273
    三、构建逻辑回归模型 .275
    四、构建决策树模型 .276
    五、构建朴素贝叶斯模型 .276
    六、选择最优模型 .277
    任务实训 277
    实训三 建立电信运营用户流失预测模型 .277
    项目总结?
    附录 ANumPy 库 279
    附录 Bpandas 库 .281
    附录 CMatplotlib 库 283
    附录 Dsklearn 库 .285
    参考文献 .286
    
  • 苏叶健,中共党员,,副教授,南宁市苏叶健技能大师工作室、南宁市劳模和工匠创新工作室负责人,曾荣获全国优秀教师、广西教学名师、广西五一劳动奖章、广西工匠、自治区优秀教师、广西技术能手、南宁工匠等多项荣誉称号。入选教育部全国产业导师资源库、南宁市首席技师、南宁市新世纪学术和技术带头人、南宁市高层次人才。主编及参编出版教材4本,广西职业教育教学成果奖4项,主要参与完成国家级精品资源共享课1门、国家级在线精品课程1门,教师本人参加国家级竞赛二等奖和三等奖各1项、自治区竞赛获第一名1项、一等奖和二等奖各1项,指导学生参加国家级技能竞赛获二等奖4项、三等奖1项,自治区级获奖数十项。服务企业研发软件项目8项,获软件著作权15项,实用新型专利5项,完成科研项目10项,受聘广西职工职业技能大赛裁判、UK NARIC 中方理事会国际专业认证整改专家委员会委员,教学改革创新、专业建设各项工作成效显著。
    
    黄伟,副教授,专业带头人。主持开展国家“双高计划”南宁职业技术学院软件技术高水平专业群的核心专业建设,主持完成南宁职业技术学院国家示范建设项目软件技术重点专业建设,主持完成2011年广西高等学校特色专业及课程一体化建设项目,主要参与获得广西自治区级教学成果一等奖2项,三等奖2项。获得广西职业院校教学能力大赛二等奖1项,全国高等院校计算机类专业教学能力大赛二等奖1项,指导学生参加全国职业院校技能大赛获得二等奖1项、三等奖2项,指导学生荣获第二届广西职业技能大赛金牌。受聘担任广西职工职业技能大赛大数据平台运维赛项裁判组长、全国新职业和数字技术技能大赛裁判、第二届广西职业技能大赛裁判。主持建设“Java程序设计”获评为广西自治区级职业教育课程思政示范课程,主要参与完成国家级精品资源共享课1门、职业教育国家在线精品课程1门。
    
    唐美霞,中共党员,副教授,大数据技术专业教师、副教授、南宁市高层次人才、华为ICT学院大数据讲师,新华三公司大数据平台运维认证讲师,教育厅认定的“双师”型教师。
    
    
  • (1)各项目紧扣任务需求展开,不堆积知识点,着重于面向岗位实际项目解决方案的实施;通过从任务描述到任务实施这一完整工作流程的体验,使读者真正掌握 Python 数据挖掘与机器学习技术。
    (2)注重在实际项目中总结相关知识,理实一体,让读者明确如何利用所学知识解决问题;通过实训和课后练习巩固所学知识,真正理解并能够应用所学知识。
    (3)以 Python 编程语言和 pandas 等开发包为技术环境,与大多数高职院校的大数据技术、人工智能技术应用、软件技术等专业的课程体系实现衔接。
    (4)各项目附有课后作业题,提供了教学课件、案例代码等配套资源,同时还通过在线开放课程提供教学视频、实训指导、习题库等丰富的教学资源,可通过中国铁道出版社有限公司官网https://www.tdpress.com/51eds/ 下载。