计算机类专业教育 > 程序设计类

R语言数据分析与挖掘

书号:9787113257538 套系名称:高等学校大数据技术与应用规划教材

作者:杜宾 钱亮宏 黄勃 高永彬 出版日期:2019-07-01

定价:59.80 页码 / 开本:364 /16

策划编辑:曹莉群 责任编辑:包宁

适用专业:无 适用层次:普通高等院校

最新印刷时间:

资源下载
教学课件(暂无) 教学素材
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  •         本书从R语言的使用出发,在重点介绍R语言编程基础、操作、可视化、统计、高性能计算和机器学习的同时,注重实践能力的培养和数据分析与挖掘素质的全面提高。

           本书分为统计分析基础和机器学习实践两部分,共12章,内容包括R语言概述、数据访问、数据操作、数据可视化、概率与分布、基本统计分析、回归分析、方差分析、大数据高性能计算、机器学习流程、有监督学习模型、无监督学习模型。本书的重点是让学生了解R语言数据分析与挖掘的基本技能和操作方法,并与数据分析与挖掘的典型方法、算法和应用场景结合。

            本书内容丰富、体系新颖、结构合理、文字精练,适合作为普通高等院校信息类、管理类和数学统计类专业的R语言数据分析与挖掘课程的教材,也可作为数据科学行业相关从业人员的自学用书。
  • 第一部分 统计分析基础
    第1章 概述1
    1.1 为什么使用R语言2
    1.2 R的安装   3
    1.3 RStudio集成环境 4
    1.4 R的基础操作  4
    1.5包    9
    1.6 结果的重用性  10
    1.7 综合示例   11
    1.8 大数据处理  11
    1.9 数据挖掘   13
    小结    16
    习题    16
    第2章 数据访问 17
    2.1数据集合   17
    2.2数据结构   18
    2.3数据的输入  27
    2.4数据的输出  35
    2.5数据集的标注  36
    2.6处理数据对象的实用函数36
    小结    37
    习题    37
    第3章 数据操作  39
    3.1一个示例    39
    3.2创建新变量   41
    3.3变量的重编码   42
    3.4变量的重命名   43
    3.5缺失值    44
    3.6日期型数据   46
    3.7类型转换    48
    3.8数据排序    49
    3.9数据集的合并   49
    3.10数据集取子集  50
    3.11使用SQL 语句操作数据框53
    3.12一个数据处理难题 53
    3.13数值和字符处理函数 54
    3.14数据处理难题的一套解决方案61
    3.15控制语句  66
    3.16自定义函数  68
    3.17重构与整合  70
    小结    73
    习题    73
    第4章 数据可视化 75

    4.1创建图形    75
    4.2简单示例    77
    4.3图形参数    78
    4.4添加文本、自定义坐标轴和图例83
    4.5图形的组合   89
    4.6条形图    93
    4.7饼图     97
    4.8直方图    99
    4.9核密度图    100
    4.10点图    105
    4.11 ggplot2包   107
    小结     116
    习题     116
    第5章 概率与分布  117
    5.1随机抽样    117
    5.2概率分布    118
    5.3R的概率分布   122
    5.4常用分布的概率函数图124
    5.5中心极限定理及应用 127
    小结     132
    习题     132
    第6章 基本统计分析 133
    6.1描述性统计分析  133
    6.2频数表和列联表  139
    6.3相关系数    148
    6.4检验     152
    6.5组间差异的非参数检验154
    小结     157
    习题     157
    第7章 回归分析  159
    7.1概论     160
    7.2 OLS 回归    161
    7.3回归诊断    170
    7.4异常观测值   179
    7.5改进方法    182
    7.6选择“最佳”的回归模型184
    7.7深度分析    188
    小结     192
    习题     192
    第8章 方差分析  195
    8.1 基本概念   195
    8.2 ANOVA 模型拟合  196
    8.3 单因素方差分析  198

    8.4单因素协方差分析  202
    8.5双因素方差分析  206
    8.6重复测量方差分析  208
    8.7多元方差分析   210
    8.8回归实现ANOVA  214
    小结     216
    习题     216
    第二部分 机器学习实践
    第9章 大数据高性能计算 218
    9.1数据选择    219
    9.2数据聚合    223
    9.3数据引用    225
    9.4键与快速筛选   228
    9.5数据连接    231
    9.6数据变形    236
    小结     238
    习题     238
    第10章 机器学习流程 239
    10.1数据探索   240
    10.2数据划分   241
    10.3数据填充   242
    10.4特征选择   246
    10.5建模与调优   251
    10.6测试与评估   257
    小结     260
    习题     260
    第11章 有监督学习模型 261
    11.1线性回归模型  263
    11.2逻辑回归模型  269
    11.3线性判别分析模型 275
    11.4朴素贝叶斯模型  275
    11.5k近邻模型   275
    11.6决策树模型   284
    11.7随机森林模型  299
    11.8神经网络模型  309
    11.9支持向量机模型  319
    小结     330
    习题     330
    第12章 无监督学习模型 331
    12.1 k均值聚类模型  333
    12.2 DBSCAN聚类模型  341
    12.3 AGNES层次聚类模型 346
    12.4关联分析模型  351
    小结     357
    习题     357
    参考文献    358

  •         求既注重基础又具有一定的前沿性,能够与大数据、深度学习等学科前沿知识很好地衔接起来,为学生进一步学习R语言的其他课程打下坚实的基础。