高等教育 > 计算机类

数据仓库原理与实践

书号:9787113319984 套系名称:“十四五”高等学校新工科计算机类专业系列教材

作者:康瑶 董亮 出版日期:2025-03-01

定价:62.00 页码 / 开本:无 /16

策划编辑:闫钇汛 责任编辑:闫钇汛 贾淑媛

适用专业:计算机类 适用层次:高等教育

最新印刷时间:2025-03-01

资源下载
教学课件 教学素材
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 本书为“十四五”高等学校新工科计算机类专业系列教材之一,主要论述数据仓库的理论和实际应用,内容涵盖数据仓库的基本概念、数据模型、维度建模、技术架构、数据集成与存储、Hive 数据仓库工具、Spark 计算引擎、大数据任务调度系统、OLAP 联机分析处理技术,以及企业级数据仓库综合项目实践等方面。
    
    本书内容特色鲜明,面向应用型本科,紧密结合企业级数据仓库设计需求。通过应用案例及项目实战介绍大数据技术在数据仓库中的应用。同时,本书内容丰富全面,既体现了数据仓库的理论知识,又注重实践应用。
    
    本书适用于高等院校数据科学与大数据技术、计算机科学与技术、软件工程等专业的高年级本科生,以及对大数据感兴趣的读者。
  •        数据仓库作为现代企业决策分析的重要基石,是一个集中存储、管理和整合企业数据的大型数据存储集合。它通过整合分散的业务数据,向企业提供全面的数据分析支持,并可面向主题组织数据,确保数据的稳定性,满足复杂分析需求。随着数据量的爆炸性增长,数据仓库技术不断创新,提升数据存储、处理和分析能力,已成为企业数字化转型和智能化升级的关键驱动力。
           本书旨在全面论述数据仓库的基本概念、系统组成及关键技术,并结合实际案例深入探讨数据仓库的设计、实施与优化策略。本书内容组织如下:
           第1章介绍了数据仓库的基本概念、发展历程及作用,让读者对数据仓库有一个全面的了解。
           第2章详细论述了数据仓库的数据模型,特别是维度模型的相关概念、类型及其在数据仓库中的应用,为数据仓库设计提供理论基础。
           第3章论述了基于Ralph Kimball基础的维度建模理论以及企业级数据仓库的数据分层建模思想,并通过实际案例展示了如何进行数据仓库的需求分析、逻辑模型设计及物理模型设计。
           第4章论述了大数据场景下的数据仓库项目的技术场景分析、技术方案设计及技术架构设计,帮助读者掌握数据仓库项目开发的流程和方法。
           第5章深入讲解了大数据离线场景下的数据采集与同步技术,包括 Flume 和SeaTunnel框架的应用,以及实际案例的展示。
           第6章详细论述了Hive数据仓库工具的技术原理和应用方法,通过实际案例展示了如何利用Hive构建数据仓库、处理海量用户行为数据。
           第7章论述了开源大数据主流计算引擎Spark,包括其技术原理、部署方法、任务提交及数据处理等方面的内容,并通过实际案例展示了如何利用Spark实现数据仓库构建过程中的关键步骤。
           第8章论述了大数据任务调度系统DolphinScheduler的核心价值与关键技术,并通过实际案例展示了其在大数据平台中的关键角色。
           第9章论述了OLAP(online analytical processing,联机分析处理)技术的原理及其在数据仓库中的应用,同时介绍了 Apache Kylin这一开源的、分布式的数据仓库OLAP工具,并通过实际案例展示了其部署、优化及查询加速的实践应用。
           第10章论述了大数据项目的完整开发过程,包括行业背景调查、需求分析、技术架构和技术实现等方面的内容,帮助读者了解大数据项目开发的完整流程。
           本书紧扣数据仓库设计及开发所需要的知识、技能和素质要求,以技术应用能力培养为主线构建教材内容,具有以下特色:
           (1)理论与实践相结合:本书不仅论述了数据仓库的基本理论和关键技术,还通过实际案例展示了如何应用这些理论和技术进行数据仓库的设计、实施与优化。
           (2)内容全面深入:本书涵盖了数据仓库的各个方面,从基本概念到关键技术,再到实际应用,内容全面深入。
           (3)配套资源丰富:本书配备了丰富的配套资源,包括案例代码、教学视频、PPT课件等,以方便读者学习和实践。读者可联系本书编者获取资源(53235602@qq.com)。
           本书由北京城市学院及慧科教育集团联合编写,参考了连续多届选课的同学提出的宝贵建议,编者在此表示衷心感谢。由于时间仓促,编者水平有限,书中难免存在不足之处,恳请广大读者指正。
          
    
           编  者
           2024年12月
  • 第 1 章 数据仓库概述  1
    1.1 数据仓库与数据库 2
    1.1.1 数据仓库的定义 2
    1.1.2 数据仓库与操作型数据库 4
    1.1.3 数据仓库的应用 6
    1.2 数据仓库系统及开发工具 7
    1.2.1 数据仓库系统的组成 7
    1.2.2 大数据时代数据仓库开发工具 10
    1.3 商业智能与数据仓库 12
    1.3.1 商业智能 12
    1.3.2 商业智能与数据仓库的关系 13
    1.4 大数据时代数据仓库建设 14
    1.4.1 大数据时代数据仓库的架构 14
    1.4.2 大数据时代数据仓库的关键技术 15
    1.4.3 大数据时代数据仓库应用存在的问题 16
    小 结 16
    思考与练习 17
    第 2 章 数据仓库的数据模型  18
    2.1 数据仓库的数据模型分类 19
    2.1.1 维度模型 19
    2.1.2 范式模型 19
    2.1.3 Data Vault 模型 19
    2.1.4 Anchor 模型 20
    2.2 维度模型的相关概念 20
    2.2.1 粒度 20
    2.2.2 维度与维度表 20
    2.2.3 度量与事实表 21
    2.2.4 多维数据集 21
    2.3 维度模型的结构 22
    2.3.1 星状模型 23
    2.3.2 雪花模型 23
    2.3.3 事实星座模型 25
    小 结 26
    思考与练习 26
    第 3 章 数据仓库设计  27
    3.1 数据仓库设计概述 28
    3.1.1 数据仓库设计原则 28
    3.1.2 数据仓库系统的建立模式 28
    3.1.3 数据仓库规划 29
    3.1.4 数据仓库设计过程 29
    3.2 数据仓库需求分析 30
    3.2.1 数据决策需求调研 31
    3.2.2 业务系统及业务流程调研 31
    3.2.3 数据调研及明确统计需求 31
    3.3 数据仓库主题与主题域分析 32
    3.3.1 主题 32
    3.3.2 主题域 33
    3.3.3 划分主题域及主题 33
    3.4 数据仓库逻辑模型设计 37
    3.4.1 数据仓库维度建模 38
    3.4.2 数据仓库数据分层与粒度
     设计 42
    3.5 数据仓库物理模型设计 44
    3.5.1 确定数据的存储结构 44
    3.5.2 确定索引策略 45
    3.5.3 确定存储分配 45
    3.6 数据仓库的部署与维护 45
    3.7 数据仓库建模设计项目实践 46
    3.7.1 项目背景 46
    3.7.2 实训目标与实训内容 47
    3.7.3 实训步骤 47
    小 结 57
    思考与练习 57
    第 4 章 数据仓库技术架构  59
    4.1 数据仓库技术场景分析 60
    4.2 数据仓库技术方案 61
    4.2.1 数据仓库技术选型 61
    4.2.2 数据采集与集成 63
    4.2.3 数据存储 63
    4.2.4 数据计算 64
    4.2.5 任务调度 66
    小 结 67
    思考与练习 67
    第 5 章 数据集成与存储.68
    5.1 大数据来源 69
    5.1.1 多种离线数据源 69
    5.1.2 多种实时数据源 69
    5.1.3 多种数据类型 69
    5.2 数据采集 71
    5.2.1 Flume 数据采集概述 71
    5.2.2 数据采集组件 75
    5.2.3 数据采集流程 82
    5.2.4 故障转移 84
    5.2.5 数据拦截器 85
    5.2.6 数据采集项目实践 91
    5.3 数据集成 94
    5.3.1 SeaTunnel数据集成概述94
    5.3.2 部署与配置 96
    5.3.3 数据集成项目实践 99
    5.4 数据存储 105
    5.4.1 数据存储类型与存储格式 105
    5.4.2 数据压缩算法 106
    小 结 107
    思考与练习 107
    第 6 章 数据仓库工具 Hive  108
    6.1 Hive 框架介绍 109
    6.1.1 Hive 框架概述 109
    6.1.2 Hive 功能特点 109
    6.1.3 Hive 应用场景 109
    6.2 Hive 框架部署与配置  110
    6.2.1 Hive 运行环境  111
    6.2.2 Hive 参数配置  114
    6.3 Hive 技术架构  117
    6.3.1 Hive 核心组件  117
    6.3.2 Hive 元数据服务  119
    6.3.3 Hive 客户端连接 123
    6.4 HQL 语法与应用 127
    6.4.1 HQL 语言基础 127
    6.4.2 数据定义 132
    6.4.3 数据操作 140
    6.4.4 内置函数与自定义函数 151
    6.4.5 项目实践 161
    小 结 167
    思考与练习 167
    第 7 章 基于 Spark 平台的数据计算 168
    7.1 Spark 计算引擎 169
    7.1.1 MR 与 DAG 计算模型 169
    7.1.2 Spark 核心概述 170
    7.2 Spark 部署与任务提交 172
    7.2.1 Spark 环境部署及运行 172
    7.2.2 Spark 任务提交 174
    7.3 Spark SQL 179
    7.3.1 Spark SQL 介绍 179
    7.3.2 Spark SQL 架构和运行原理 179
    7.3.3 Spark 与 Hive 集成 181
    7.3.4 Spark SQL 任务提交 182
    7.3.5 Spark 数据计算项目实践 183
    小 结 189
    思考与练习 189
    第 8 章 任务调度 190
    8.1 任务调度概述 191
    8.1.1 任务调度框架概述 191
    8.1.2 DolphinScheduler 任务调度框架 191
    8.2 调度框架的部署与配置 193
    8.2.1 DolphinScheduler 部署 193
    8.2.2 DolphinScheduler 配置 195
    8.3 任务调度应用 199
    8.3.1 DolphinScheduler 任务调度 199
    8.3.2 任务调度项目实践 204
    小 结 208
    思考与练习 208
    第 9 章 OLAP(联机分析处理)  209
    9.1 OLAP 概述 210
    9.1.1 OLAP 简介 210
    9.1.2 OLAP 与 OLTP 的关系 210
    9.1.3 数据仓库与OLAP的关系  211
    9.2 数据立方体 212
    9.2.1 数据立方体概述 212
    9.2.2 数据立方体的演进 213
    9.2.3 数据立方体构建算法 214
    9.3 多维数据模型与 OLAP 操作 214
    9.3.1 典型的 OLAP 操作 214
    9.3.2 OLAP 的实现类型 217
    9.4 利用 Kylin 实现 OLAP 分析 219
    9.4.1 Kylin 简介 219
    9.4.2 Kylin Cube 构建与优化 220
    9.4.3 Kylin 运行环境部署 226
    9.4.4 基于 Kylin 的多维数据分析项目实践 229
    小 结 240
    思考与练习 240
    第 10 章 企业级数据仓库综合实训 242
    10.1 项目需求 243
    10.1.1 项目概述 243
    10.1.2 项目功能 244
    10.2 技术架构设计 245
    10.2.1 技术选型 245
    10.2.2 技术架构 246
    10.3 项目应用开发 247
    10.3.1 数据采集实践 247
    10.3.2 数据同步实践 254
    10.3.3 数据仓库设计实践 256
    10.3.4 数据仓库应用实践 259
    小 结 288
  • 康瑶,硕士,副教授,北京城市学院,主讲“数据库原理与应用”“数据仓库与数据挖掘”“NoSQL数据库”等课程。已发表论文7篇,第一作者6篇,第二作者1篇。主持2018教育部产学合作协同育人项目,“数据仓库原理与实践”课程建设;主持“数据仓库原理与实践”校级混合式教学课程建设项目、校级创新课程建设、校级混合式课程建设。在校任教期间获“校级线上教学优秀案例优秀奖”“校级高等教育教学成果奖二等奖”“混合式教学示范课程”“第一届北京城市学院教师教学创新大赛(讲师组)三等奖”“第六届校级青年教师教学基本功比赛优秀奖”“校级优质课‘面向对象程序设计’ ”等多项校级奖项。
    
    
    
    董亮,副教授,北京高校邦数字科技有限公司,互联网企业大数据平台架构师,负责多个大型大数据平台建设,对于企业数据平台架构方案和解决方案,有丰富的工作经验及相关技术研究。技术领域为离线和实时场景下的数据治理、交互式查询、分布式计算、数据平台架构方案和解决方案。
  • (1)本书以Hive+Spark+Flume+Kylin的数据仓库设计思路,系统讲解了数据仓库的原理及建模方法。
    (2)以案例及项目实战贯穿讲解,做到理论与实践相结合。
    (3)教材内容既系统全面地讲述了数据仓库的理论知识,又紧密结合了企业数据仓库的设计需要,可以令读者学以致用。