计算机类教材 > 大数据

大数据导论(第二版)

书号:9787113298951 套系名称:河南省“十四五”普通高等教育规划教材;郑州市

作者:甘勇 陶红伟 吴怀广 出版日期:2023-12-01

定价:56.00 页码 / 开本: /16

策划编辑:韩从付 责任编辑:刘丽丽 包宁

适用专业:计算机类 适用层次:高等教育

最新印刷时间:2023-12-01

资源下载
教学课件 教学素材(暂无)
习题答案(暂无) 教学案例
教学设计 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 为适应大数据时代的需要,许多高校纷纷设立数据科学与大数据专业。本书基于高等院校相应课程的教学要求而编写,详细讲述了大数据与数据科学、数据采集与数据预处理、数据存储、数据处理、数据分析、数据可视化、数据安全与隐私、大数据应用、数据思维等内容。
    本书内容注重引导性、前瞻性、经典性、实践性,旨在引导读者进入大数据领域,了解大数据最新技术及其行业应用,关注大数据分析经典算法。书中还设置了实验环境和多个案例,便于读者进行实践操作。
    本书适合作为高等院校数据科学与大数据专业及其相近专业教材,也可供从事相关科研和工程技术人员参考。
    
    
  • 本书第一版于 2019 年 6 月正式出版发行,并被数十所院校选用作为教学用书,使用效果反馈良好。随着信息化社会的不断发展,技术的不断更新,编者在采纳了读者反馈的意见及建议后,在第一版的基础上,对内容进行了修订与完善,编写了第二版。
    第二版依旧保持引导性、前瞻性、经典性和实践性的特色,继承并保留了第一版的总体架构,在针对性、实用性方面进行了拓展,主要表现在以下几方面:
    第 2 章新增电力大数据采集。
    第 3 章新增 NoSQL 基本概念、CAP 理论、BASE 原理、图数据库和内存数据库等NoSQL 数据库,使读者对分布式数据库有更加清晰的认识。
    第 5 章补充随机森林算法,并基于编者近两年的科研成果新增大数据分析在电力大数据中的应用案例。
    第 6 章进行了重新编写,注重突出常用可视化方法、工具和编程语言的示例,给读者以数据可视化感性认识。
    第 7 章进行了重新编写,从大数据安全体系结构、大数据安全技术、大数据隐私保护以及隐私保护等方面阐述了大数据安全与隐私保护的关系,注重大数据安全与隐私保护的相关技术及其发展方向。
    本书旨在带领读者进入大数据领域,了解大数据最新技术及其行业应用,关注大数据分析经典算法。书中设置的实验环境和案例,可协助读者进行实践操作。相关教学资源可在中国铁道出版社有限公司教育资源数字化平台网站(www.tdpress.大数据导论(第二版)com/51eds)下载。
    本书的修订得到了河南省普通高等教育“十四五”规划教材重点立项项目和郑州市数字人才专业教材项目的支持,同时得到了河南省高等学校计算机教育研究会、中国铁道出版社有限公司领导和编辑的大力支持。此外,本书修订时使用了与河南省电力公司合作研发的“基于电力大数据的电费回收风险防控平台”和“基于大数据的反窃电预警系统”部分研究成果,研究团队包括甘勇、吴怀广、陶红伟、马江涛、尚松涛、石永生、王润六、张明星等。本书的编写还得到了郑州轻工业大学、郑州工程技术学院等院校的大力支持,在此一并表示衷心的感谢。
    本书由甘勇、陶红伟、吴怀广任主编,由史雯隽、甘勇、吴怀广、尚松涛、陈浩然、邓璐娟、陶红伟、马江涛具体执笔。全书由甘勇、陶红伟、吴怀广指定编写提纲,各章编写分工为:史雯隽编写第 1 章,甘勇和吴怀广编写第 2 章,尚松涛编写第 3 章和第 7 章,陈浩然和邓璐娟编写第 4 章,陶红伟编写第 5 章和第 6 章,马江涛编写第8 章和第 9 章,最后由甘勇和陶红伟定稿。
    编者力图将数据科学与大数据的原理、技术及其应用讲述清楚,但由于个人学识有限,书中难免存在不足,欢迎读者批评指正。
    编 者
    2023 年 8 月
    
  • 第 1 章大数据与数据科学 / 1
    1.1 大数据概述 / 1
    1.1.1 大数据的概念 / 2
    1.1.2 大数据的特征 / 2
    1.1.3 大数据的结构类型 / 3
    1.2 大数据的发展 / 4
    1.3 大数据处理的挑战 / 5
    1.4 数据科学的概念 / 6
    1.5 数据科学的由来 / 7
    1.6 数据科学的应用场景 / 9
    1.6.1 行业数据 / 9
    1.6.2 数据服务 / 10
    小结 / 11
    习题 / 11
    第 2 章? 数据采集与数据预处理 / 12
    2.1 数据采集和数据预处理概述 / 12
    2.1.1 数据采集概述 / 12
    2.1.2 数据预处理概述 / 13
    2.2 数据采集技术 / 15
    2.2.1 网络数据采集技术 / 15
    2.2.2 日志数据采集技术 / 23
    2.3 数据预处理技术 / 28
    2.3.1 数据清洗 / 28
    2.3.2 数据集成 / 30
    2.3.3 数据变换 / 30
    2.3.4 数据规约 / 31
    2.3.5 电力大数据的采集 / 32
    小结 / 34
    习题 / 34
    第 3 章? 数据存储 / 35
    3.1 数据存储概述 / 35
    3.1.1 数据存储的发展历程 / 35
    3.1.2 数据存储模型 / 37
    3.2 关系型数据库 / 37
    3.2.1 关系型数据库的基本概念 / 38
    3.2.2 关系型数据库的优缺点 / 40
    3.2.3 关系型数据库的 ACID 原则 / 41
    3.2.4 关系型数据库分库分表 / 42
    3.3 大数据存储 / 45
    3.3.1 海量数据存储关键技术 / 45
    3.3.2 分布式文件系统 / 47
    3.4 分布式数据库 / 51
    3.4.1 NoSQL / 52
    3.4.2 CAP 理论 / 53
    3.4.3 BASE 原理 / 55
    3.4.4 HBase 分布式数据库 / 57
    3.4.5 MongoDB 分布式数据库 / 60
    3.4.6 Hive 分布式数据仓库 / 61
    3.4.7 图数据库 / 63
    3.4.8 内存数据库 / 66
    小结 / 68
    习题 / 68
    第 4 章? 大数据处理平台 / 69
    4.1 大数据处理平台概述 / 69
    4.2 大数据的处理平台架构 / 70
    4.2.1 技术架构 / 70
    4.2.2 开源平台 / 71
    4.3 大数据的批量计算 / 73
    4.3.1 批量计算的概念 / 73
    4.3.2 批量计算的软件系统 / 74
    4.4 大数据的流式计算 / 82
    4.4.1 流式计算的概念 / 82
    4.4.2 流式计算的软件系统 / 83
    4.5 大数据的混合处理计算 / 87
    4.5.1 混合处理计算的概念 / 87
    4.5.2 混合处理计算的软件系统 / 88
    小结 / 97
    习题 / 98
    第 5 章? 数据分析 / 99
    5.1 数据分析概述 / 99
    5.1.1 数据分析的概念和作用 / 99
    5.1.2 数据分析的类型 / 100
    5.1.3 数据分析的流程 / 100
    5.2 统计数据分析方法 / 102
    5.2.1 描述统计 / 102
    5.2.2 相关分析 / 103
    5.2.3 回归分析 / 107
    5.2.4 主成分分析 / 111
    5.3 数据挖掘算法 / 115
    5.3.1 决策树 / 115
    5.3.2?随机森林算法 / 120
    5.3.3 K-Means 算法 / 123
    5.3.4 Apriori 算法 / 128
    5.3.5 神经网络 / 133
    5.4 数据分析工具 / 135
    5.5?电力大数据分析 / 136
    5.5.1?基于电力大数据分析的反窃电预
    ?? 测方法 / 136
    5.5.2?基于电力大数据分析的电费风险
    ?? 预警模型构建方法 / 151
    小结 / 160
    习题 / 160
    第 6 章? 数据可视化 / 162
    6.1 数据可视化概述 / 162
    6.1.1 数据可视化的概念 / 162
    6.1.2 数据可视化的作用 / 163
    6.1.3 数据可视化的一般过程 / 164
    6.1.4?数据可视化的原则 / 165
    6.1.5?数据可视化的挑战和趋势 / 167
    6.1.6?常用数据可视化的图类型 / 168
    6.2 数据可视化方法 / 172
    6.2.1 文本可视化 / 172
    6.2.2 网络可视化 / 174
    6.2.3 时空数据可视化 / 177
    6.3 数据可视化常用工具 / 179
    6.3.1 Excel / 179
    6.3.2 ECharts / 180
    6.3.3 Tableau / 180
    6.4?数据可视化常用编程语言 / 181
    6.4.1?Python / 181
    6.4.2?D3.js / 181
    6.4.3?R / 182
    6.4.4?HTML、JavaScript和 CSS 语言 / 182
    小结 / 183
    习题 / 183
    第 7 章? 大数据安全与隐私保护 / 184
    7.1 大数据安全概述 / 184
    7.2 大数据安全体系结构 / 193
    7.3 大数据安全技术 / 197
    7.4 大数据安全协议 / 204
    7.5 大数据隐私保护 / 207
    7.5.1?大数据时代隐私侵权特征 / 207
    7.5.2?国内外隐私保护现状 / 208
    7.5.3?大数时代隐私保护关键技术 / 210
    7.6?大数据共享与隐私保护 / 214
    7.6.1?大数据共享安全框架 / 215
    7.6.2?联邦学习 / 219
    小结 / 221
    习题 / 222
    第 8 章? 大数据应用 / 223
    8.1 互联网商业应用 / 223
    8.1.1 用户画像 / 223
    8.1.2 大数据精准营销 / 226
    8.1.3 互联网金融 / 227
    8.2 行业大数据 / 229
    8.2.1 教育大数据 / 229
    8.2.2 电力大数据 / 231
    8.2.3 医疗大数据 / 233
    8.3 人工智能应用 / 236
    8.3.1 语音识别和机器翻译 / 236
    8.3.2 共享经济 / 237
    8.3.3 智慧城市 / 240
    小结 / 244
    习题 / 244
    第 9 章? 数据思维 / 245
    9.1 大数据时代的挑战 / 245
    9.2 大数据时代的思维变革 / 249
    9.2.1 第四范式 / 249
    9.2.2 数据的混杂性 / 250
    9.2.3 样本与总体 / 251
    9.2.4 数据的相关关系与因果
    ???关系 / 252
    9.2.5 大数据与幸存者偏差 / 253
    9.3 大数据激发创造力 / 255
    9.3.1 大数据预测电影票房 / 255
    9.3.2 利用大数据发掘商业价值 / 256
    9.3.3 利用大数据发现高速公路
    ???超速者 / 256
    9.4 数据科学发展 / 257
    9.4.1 开放数据运动 / 257
    9.4.2 数据科学家所需的专业技能 / 259
    9.4.3 数据科学的发展前景 / 262
    小结 / 263
    习题 / 263
    参考文献 / 264
    
  • 甘勇,郑州工程技术学院副校长,教授,长期工作在教学科研一线,主持的大学计算机和程序设计基础课程被评为河南省精品课程、河南省精品资源共享课,担任教育部计算机课程教学指导委员会委员、河南省计算机类专业和网络空间安全专业教学指导委员会副主任,兼任中国计算机学会理事、河南省计算机学会副理事长、河南省计算机教育研究会副理事长。荣获过国家级优秀教学成果二等奖、2项河南省优秀教学成果特等奖、3项河南省优秀教学成果二等奖。
    
    陶红伟,郑州轻工业大学计算机与通信工程学院副教授、博士,主要研究方向包括大数据分析、软件可信度量与评估、信息安全。主持省部级以及横向项目5项,作为主要成员参与国家863重点项目子课题、国家自然科学基金重大研究计划集成项目子课题、国家863项目和国家自然科学基金项目等。
    
    
    
    
  • ①河南省“十四五”普通高等教育规划教材;郑州市"码农计划"大数据人才培养系列教材。
    
    ②为知识难点、实操性强的内容录制微课视频,扫码即可观看。
    
    ③使用河南省电力公司的“基于电力大数据的电费回收风险防控平台”和“基于大数据的反窃电预警系统”部分研究成果,校企共建教材。