计算机类教材 > 大数据

Hive数据仓库技术与应用

书号:9787113271947 套系名称:高等职业教育校企合作系列教材·大数据技术与应用专业

作者:朱晓彦 方明清 李强 出版日期:2020-09-01

定价:45.00 页码 / 开本:236 /16

策划编辑:翟玉峰 责任编辑:翟玉峰 李学敏

适用专业:计算机教材 适用层次:高职高专

最新印刷时间:2022-01-21

资源下载
教学课件 教学素材(暂无)
习题答案(暂无) 教学案例(暂无)
教学设计 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 本书是大数据技术与应用专业校企合作系列教材之一,采用模块化的编写思路,内容包括Hive概述、环境准备、Hadoop搭建和配置、安装Hive的基础操作、HiveQL的数据定义、HiveQL语句、Hive综合应用7个单元和25个教学任务。每个单元通过学习目标引出单元的教学核心内容,明确教学任务。每个任务的编写分为任务目标、知识学习、任务实施、同步训练4个环节。最后通过单元小结回顾每个单元的学习重点。
    本书适合作为高职院校软件技术、大数据技术及应用专业,以及计算机类相关专业的教材,也可以作为Hive爱好者的参考用书。
    
  • Hive基于Hadoop环境进行存储,Hadoop目前只能依托于Linux系统进行搭建。因为编译Hive时会调用Shell,Windows本身不支持Shell的调用;Hive还需要JDK和MySQL数据库的支持,Hive是基于Hadoop的一个数据仓库工具,它不提供数据存储功能也不进行分布式计算框架和资源调度系统。Hive使用HDFS做数据存储,并且将SQL语句翻译成MapReduce程序来调用;Hive本身不进行资源调度系统,而是通过YARN集群进行的,将数据的结构化映射成一张数据库表和Hive SQL的查询功能。
    Hive中需要数据库的支持,本书对数据库中的增、减、删、改基本命令进行详细介绍,包括表的调用、整改、权限管理、正则表达式、GROUP BY、字符串及一些简单的命令符号。在讲述Hive的同时还对JDK环境变量、Hadoop环境、HBase搭建、MySQL数据库进行简单描述。
    本书采用模块化的编写思路,内容包括Hive概述、环境准备、Hadoop搭建与配置、安装Hive的基础操作、HiveQL的数据定义、HiveQL语句、Hive与企业接轨这7个方面,共计25个教学任务。每个单元通过学习目标引出单元的教学核心内容,明确教学任务。每个任务的编写分为任务目标、知识学习、任务实施、同步训练4个环节。
     ● 任务目标:简述本任务将要达到的效果,提高学生学习兴趣。
     ● 知识学习:详细讲解知识点,通过系列实例实践,边学边做。
     ● 任务实施:通过任务综合应用所学知识,提高学生系统运用知识的能力。
     ● 同步训练:在任务实施的基础上通过“学”“仿”“做”达到理论与实践的统一、知识内化的教学目的。
    最后通过单元小结,总结本单元的教学重点与难点。
    本教材建议授课49学时,教学单元与学时安排如下表所示。
    
    
    教学单元与学时安排
    
    
    
    
    序号
    单元名称
    学时安排
    
    
    1
    单元1Hive概述
    3
    2
    单元2环境准备
    6
    3
    单元3Hadoop搭建和配置
    4
    4
    单元4安装Hive的基础操作
    14
    5
    单元5HiveQL的数据定义
    6
    6
    单元6HiveQL语句
    10
    7
    单元7Hive综合应用
    6
    
    学时总计
    49
    
    
    
    本书是大数据技术与应用专业校企合作系列教材,开发了丰富的数字化教学资源,可使用的教学资源如下表所示。
    
    
    课程教学资源一览表
    
    
    
    
    序号
    资源名称
    表现形式与内涵
    
    
    1
    课程简介
    Word文档,包括对课程内容简单介绍和对课时、适用对象等项目的介绍,让学生对Hive有简单的认识
    2
    课程标准
    Word文档,包括课程定位、课程目标要求以及课程内容与要求,可供教师备课时使用
    3
    授课视频
    MP4视频文件,可帮助教师教好Hive这门课
    4
    微课
    MP4视频文件,帮助学习,理解学习内容
    5
    电子课件
    PPT文件,也可根据教师实际需要加以修改后使用
    6
    案例
    Tar包,包括单元项目案例和综合案例,综合运用所学的知识
    7
    习题库、试卷库
    Word文档,习题包括理论习题和操作习题,试卷包括单元测试和课程测试。通过练习和测试,加深学生对知识的掌握程度
    8
    附书源码
    Tar包,包括本书中所有例题和任务的源代码
    
    
    
    本书配套的资源包、运行脚本、教学课件等,可登录http://www.1daoyun.com下载。相关软件的安装文件、配置文件的源代码文件、相关程序的源代码文件及课件也可以从http://www.tdpress.com/51eds/网址下载。
    本书由朱晓彦、方明清、李强任主编,王庆宇、周连兵、李自臣任副主编,并联合江苏一道云科技发展有限公司共同编写而成。由于编者水平有限,不足之处在所难免,恳请各位读者给予批评、指正,编者将不胜感激。
    编者
    2020年6月
    
  • 单元1Hive概述1
    任务11Hive的产生背景1
    
    
    
    
    1 Hive的产生背景2
    
    2 Hive的发展历史和现状4
    
    3 Hive与Hadoop4
    
    任务12Hive的概念9
    
    
    
    
    1 Hive的系统与部署架构9
    
    2 Hive与RDBM对比12
    
    3数据仓库的理解12
    
    4 Hive的数据模型15
    
    5 HiveQL与数据存储16
    
    任务13Hadoop生态与Hive20
    
    
    
    
    1 Pig20
    
    2 HBase21
    
    单元小结25
    
    
    单元2环境准备26
    任务21VMware与SecureCRT
     Portable26
    
    
    
    
    1 VMware简介26
    
    2 VMware的虚拟化27
    
    任务22JDK的配置37
    
    
    
    
    
    1 JDK的简介37
    
    2 JDK的版本37
    
    3上传JDK的介质37
    
    4 tar的解压与压缩37
    
    任务23免密登录41
    
    
    
    
    1 免密登录用户41
    
    2免密登录的优点42
    
    单元小结46
    
    
    单元3Hadoop搭建和配置47
    
    任务31Hadoop搭建47
    
    
    
    
    1上传Hadoop的介质47
    
    2解压Hadoop压缩包48
    
    3配置Hadoop的环境变量48
    
    4配置Hadoop环境变量48
    
    5修改Hadoop的配置文件49
    
    6启动Hadoop服务51
    
    7检查Hadoop的成功52
    
    任务32Hadoop配置57
    
    
    
    
    1 Hadoop简介57
    
    2 MapReduce综述61
    
    单元小结70
    
    
    
    单元4安装Hive的基础操作71
    
    任务41Hive的模式71
    
    
    
    
    1本地模式72
    
    2远程模式72
    
    3内嵌模式73
    
    任务42安装Hive实验88
    
    
    
    
    1 Hive简介88
    
    2 Hive的定义88
    
    3设计特征88
    
    4数据存储89
    
    任务43Hive命令95
    
    
    
    
    1创建表语句95
    
    2加载数据96
    
    3改变表98
    
    4替换101
    
    5删除表102
    
    6分区103
    
    任务44Hive命令行界面107
    
    
    
    
    1 CLI选项107
    
    2变量和属性111
    
    3在Hive内使用Hadoop的
    DFS命令112
    
    任务45数据类型和文件格式114
    
    
    
    
    1基本数据类型114
    
    2文件格式116
    
    3压缩编码119
    
    4集合数据类型121
    
    
    
    任务46Hive权限管理125
    
    
    
    
    1开启权限126
    
    2权限操作128
    
    任务47Hive常用优化方法137
    
    
    
    
    1控制Reducer数量137
    
    2使用Map Join138
    
    3使用distinct+union all
    代替union139
    
    4解决数据倾斜的通用方法140
    
    单元小结141
    
    
    单元5HiveQL的数据定义143
    
    任务51HiveQL的数据定义143
    
    
    
    
    1 HiveQL的数据定义143
    
    2 HiveQL和SQL的区别146
    
    任务52Hive数据库150
    
    
    
    
    1 Hive的数据库150
    
    2修改数据库属性151
    
    任务53修改表157
    
    
    
    
    1增加、修改和删除表分区157
    
    2表重命名157
    
    3增加列157
    
    4删除或者替换列157
    
    5修改表属性158
    
    6修改存储属性158
    
    7修改表语句158
    
    单元小结162
    
    
    
    单元6HiveQL语句163
    
    任务61SELECT、FROM语句的
    概念163
    
    
    
    
    1使用正则表达式来指
    定列163
    
    2使用列值进行计算165
    
    3算术运算符165
    
    4使用函数168
    
    5 LIMIT语句169
    
    6列的别名169
    
    7 CASE、WHEN、THEN句式169
    
    8嵌套SELECT语句172
    
    任务62GROUP BY178
    
    任务63抽样查询180
    
    
    
    
    1数据块抽样180
    
    2分桶表的输入裁剪180
    
    任务64WHERE语句181
    
    
    
    
    1谓语操作符182
    
    2浮点数比较183
    
    任务65JOIN语句184
    
    
    
    
    
    
    
    1 JOIN优化185
    
    2 LEFT OUTER JOIN186
    
    3 INNER JOIN187
    
    4 FULL OUTER JOIN189
    
    5 LEFT SEMIJOIN189
    
    6 RIGHT OUTER JOIN190
    
    7 OUTER JOIN190
    
    8笛卡儿积JOIN191
    
    9 mapsidejoin192
    
    单元小结194
    
    单元7Hive综合应用195
    
    任务71Hive和亚马逊网络服务
    系统(AWS)195
    
    
    
    
    1弹性MapReduce的优点196
    
    2注意事项196
    
    3 EMR上的实例196
    
    任务72Hive综合案例199
    
    
    
    
    1 Hive操作演示199
    
    2交易数据演示207
    
    单元小结227
    
    参考文献228
  • 朱晓彦、安徽工业经济职业技术学院;方明清,李强,珠海城市职业技术学院。
    
  • 本书采用模块化的编写思路,通过25个任务,介绍Hive的相关技术。每个任务分为任务目标、知识学习、任务实施、同步训练4个环节。