高等教育 > 计算机类
大数据采集技术与应用
书号:9787113309770 套系名称:高等院校大数据应用型人才培养立体化资源“十四五”系列教材
作者:陈恒星 唐海涛 何亮 阳国维 出版日期:2024-12-01
定价:49.80 页码 / 开本:无 /16
策划编辑:荆波 责任编辑:荆波 彭立辉
适用专业:计算机类 适用层次:高等教育
最新印刷时间:2024-12-01
资源下载
教学课件(暂无)
教学素材(暂无)
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书针对目前大数据发展的方向,根据应用型高等院校人才培养目标编写。本书分为基础篇、实践篇和拓展篇:基础篇主要讲述爬虫的基本原理、爬虫的基本配置以及爬虫相关库的使用;实践篇包括 Scrapy框架的原理和应用以及大数据采集工具的使用;拓展篇通过一个案例——爬取网络云课课程信息来整合前面的技术。
本书是黄冈教育谷投资控股有限公司面向应用型高等院校学生及对大数据技术感兴趣的人士所开发的系列教材之一。本书以培养应用型专业人才的应用能力为主要目标,理论与实践并重,并强调理论与实践相结合,通过校企双方优势资源的共同投入和促进,建立以产业需求为导向、以实践能力培养为重点、以校企合作为途径的专业培养模式,使学生既能夯实基础知识,又能获得实际工作体验,掌握实际技能,提升综合素养。 近年来,以大数据、机器学习等为代表的人工智能得到了长足的发展和广泛的应用,而数据是实现人工智能的必备条件。随着以大数据、云计算和物联网为主要标志的第三次信息化浪潮的到来,数据成为继石油、矿产之外非常重要的基础资源。因此,获取数据成为数据处理、数据分析以至机器学习和人工智能的基本条件。同时,随着互联网、物联网的快速发展,数据产生的方式从传统的数据库发展到社交网络和感知系统,数据每年以爆炸的方式产生,这为人们获取数据提供了丰富的来源。另一方面,数据采集技术也不断发展,例如网络爬虫技术,为人们获取数据提供了技术保障。 本书分为基础篇、实践篇和拓展篇:基础篇主要讲述了爬虫的基本原理、爬虫的基本配置以及爬虫相关库的使用,读者通过阅读本篇可以学习数据获取的基本原理和基本技术。实践篇首先对验证码进行简单的探讨。验证码是网络保护数据、防止数据被非法获取的一种主流技术。此外,还讲解了Scrapy框架的原理和应用以及大数据采集工具 (DataX和 Kafka)的使用。拓展篇通过一个案例 ———爬取某网络云课课程信息来整合前面学习的技术,使读者通过一个较为复杂的案例来理解并强化数据获取技术。本书能够起到抛砖引玉的作用,可使读者从所学内容中有所领悟,达到举一反三的效果。 本书共包含七个项目,具体如下 : 项目一 认识大数据采集技术 :包含三个任务 ,主要介绍大数据的概念、发展以及数据采集技术的概念,并在此基础上介绍爬虫的概念、原理以及反爬虫的原理与技术,最后介绍网络的基本知识。 项目二 配置爬虫环境 :主要介绍爬虫环境的配置以及各种库的安装。 项目三 使用数据爬取相关库 :介绍请求库、解析库和存储库的使用。 项目四 应用图像识别技术 :介绍简单的验证码的识别。 项目五 使用Scrapy框架 :介绍Scrapy爬虫框架的原理和设计爬虫程序。 项目六 使用大数据采集工具 :介绍两种大数据采集工具DataX和 Kafka的原理及其在数据采集方面的应用。 项目七 爬取网络云课信息 :主要介绍如何使用Scrapy框架爬取网络云课网站的数据。 本书以提高读者应用能力为导向,以案例为基础,在讲解理论的同时突出实践,在实践中理解爬虫的原理、库的使用;在讲解技术的同时辅以案例来帮助读者领会和掌握技术,案例体现了逐层递进、从简单到综合的思想;读者在掌握基本技术的基础上,逐渐综合,最后完成一个综合项目。这样,可以使读者达到技术的综合和融会贯通。本书每个项目后面都附有思考与练习,这些练习有的是基础知识的复习,有的则需要读者查阅相关资料,学习相关技术才能完成。这也体现了本书的另一个目的:希望读者具备获取新知识的能力,即学习能力。本书配备了相关的课件、实训手册、题库、微课、教学大纲、课程标准等资源,以方便学生学习以及教师授课。相关教学资源可在中国铁道出版社教育资源数字化平台 (www.tdpress.com /51eds)下载。 本书适合作为高等院校大数据、物联网等计算机相关专业的教材,也可作为相关培训机构数据采集课程的教材,亦可供从事相关工作的专业技术人员使用。 本书由陈恒星、唐海涛、何亮、阳维国任主编,由任秀娟、刘嘉任副主编。具体分工为 :项目一由陈恒星 (湖南邮电职业技术学院 )编写;项目二由唐海涛 (南昌职业大学 )编写;项目三由刘嘉 (郑州轻工业大学 )编写;项目四、项目五由阳维国 (黄冈教育谷投资控股有限公司 )编写;项目六由何亮 (黄冈教育谷投资控股有限公司 )编写;项目七由任秀娟 (东营科技职业学院 )编写。全书由陈恒星统稿。 由于时间仓促,编者水平有限,书中疏漏与不妥之处在所难免,恳请读者批评指正。
基础篇 项目一 认识大数据采集技术 …………………………………………………………………3 任务一 大数据采集技术的概念 ………………………………………………………………3 一、掌握大数据的主流技术 ………………………………………………………………3 二、识记大数据采集技术 …………………………………………………………………9 三、识记大数据采集工具 …………………………………………………………………11 任务二 理解网络爬虫与反爬虫 ……………………………………………………………12 一、识记爬虫的定义 ……………………………………………………………………12 二、识记爬虫的分类 ……………………………………………………………………13 三、领会爬虫的工作原理 …………………………………………………………………15 四、识记爬虫的搜索策略 …………………………………………………………………16 五、领会反爬虫的目的和策略 ……………………………………………………………17 任务三 学习爬虫开发基础知识 ……………………………………………………………19 一、掌握HTTP基本原理 …………………………………………………………………19 二、掌握网页基础知识 ……………………………………………………………………30 三、掌握会话和Cookies …………………………………………………………………32 思考与练习 ……………………………………………………………………………………34 项目二 配置爬虫环境 …………………………………………………………………………36 任务一 安装Python 3 ………………………………………………………………………36 一、了解Python …………………………………………………………………………36 二、Windows操作系统下安装Python ……………………………………………………37 三、Linux操作系统下安装Python ………………………………………………………49 任务二 安装请求库 …………………………………………………………………………50 一、安装Requests ………………………………………………………………………50 二、安装Selenium ………………………………………………………………………51 三、安装Chromedriver ……………………………………………………………………52 任务三 安装解析库 …………………………………………………………………………54 一、安装lxml …………………………………………………………………………… 54 二、安装BeautifulSoup ……………………………………………………………………55 三、安装Pyquery …………………………………………………………………………55 四、安装MySQL和 PyMySQL ……………………………………………………………55 任务四 安装数据库及爬虫框架 ……………………………………………………………58 一、安装MongoDB和 PyMongo …………………………………………………………58 二、安装Redis、Redis-py和 Redisdump …………………………………………………63 三、安装Scrapy …………………………………………………………………………64 思考与练习 ……………………………………………………………………………………64 项目三 使用数据爬取相关库 …………………………………………………………………66 任务一 使用请求库 …………………………………………………………………………66 一、使用urllib爬取数据 …………………………………………………………………66 二、使用Requests爬取数据 ………………………………………………………………72 任务二 使用解析库 …………………………………………………………………………79 一、使用XPATH …………………………………………………………………………79 二、使用BeautifulSoup解析数据 …………………………………………………………89 三、使用PyQuery解析数据 ………………………………………………………………93 四、爬取Ajax数据 ………………………………………………………………………96 任务三 使用存储库 …………………………………………………………………………104 一、文件存储 ……………………………………………………………………………104 二、存储到MySQL ………………………………………………………………………107 三、存储到非关系型数据库 ……………………………………………………………111 思考与练习 …………………………………………………………………………………116 实践篇 项目四 应用图像识别技术 ……………………………………………………………………119 任务 识别图形验证码 ………………………………………………………………………119 一、图形验证码与相关识别库 …………………………………………………………119 二、安装配置Tesserocr …………………………………………………………………120 三、安装Python图片识别库 ……………………………………………………………123 四、使用Python图片识别库 ……………………………………………………………123 思考与练习 …………………………………………………………………………………125 项目五 使用Scrapy框架 ……………………………………………………………………126 任务 使用Scrapy框架 ……………………………………………………………………126 一、了解Scrapy框架 …………………………………………………………………… 126 二、创建Scrapy项目 ……………………………………………………………………129 三、配置Scrapy项目 ……………………………………………………………………130 四、运行Scrapy项目 ……………………………………………………………………131 五、保存数据到文件 ……………………………………………………………………132 思考与练习 …………………………………………………………………………………132 项目六 使用大数据采集工具 ………………………………………………………………135 任务一 认识大数据同步技术 ———DataX …………………………………………………135 一、了解DataX的基本概念 ……………………………………………………………135 二、DataX3.0的框架设计 ………………………………………………………………136 三、安装并配置DataX3.0 ……………………………………………………………139 四、DataX应用实例参考 ………………………………………………………………141 任务二 认识大数据采集技术———Kafka …………………………………………………143 一、了解Kafka …………………………………………………………………………143 二、Kafka的安装与应用 …………………………………………………………………146 思考与练习 …………………………………………………………………………………147 拓展篇 项目七 爬取网络云课信息 ……………………………………………………………………150 任务 使用Scrapy爬取网络云课数据 ……………………………………………………150 一、了解爬取项目 ………………………………………………………………………150 二、准备爬取项目 ………………………………………………………………………151 三、理解爬取思路 ………………………………………………………………………151 四、分析爬取项目 ………………………………………………………………………151 五、创建项目 ……………………………………………………………………………154 六、创建Item ……………………………………………………………………………156 七、提取数据 ……………………………………………………………………………156 八、清洗数据 ……………………………………………………………………………160 九、存储数据 ……………………………………………………………………………161 十、搭建Cookies池 ……………………………………………………………………163 十一、搭建IP代理池 ……………………………………………………………………164 十二、启用MiddleWare …………………………………………………………………165 十三、运行项目 …………………………………………………………………………166 思考与练习 ………………………………………………………………………………… 168 附录A 缩略语 …………………………………………………………………………………170 附录B 思考与练习参考答案 …………………………………………………………………172 参考文献 ………………………………………………………………………………………… 179
陈恒星,就职于湖南邮电职业技术学院人工智能学院,副教授。专业研究方向:数据分析与挖掘、大数据处理。公开发表论文10余篇,其中EI论文1篇,获计算机软件著作权2项,主持省级科研课题1项,参与国家级、省级课题10余项。多次参加职业院校技能大赛教学能力比赛,获省级三等奖1项;指导学生竞赛先后获省级二等奖6项、三等奖6项。唐海涛,就职于南昌职业大学,高级工程师。专业研究方向为信息技术行业。获得上海市科学技术成果1项;获得中国教育学会教研成果一等奖;发表CSCD论文1篇,撰写专著1部,申请发明专利1项、计算机软件著作权4项;参与教育部教学改革项目1项。何亮,就职于黄冈教育谷投资控股有限公司,高级工程师。专业研究方向为5G通信、大数据、人工智能,5G通信、云计算、大数据领域专家。20年ICT领域经验。阳维国,重庆大学毕业,国家信息系统高级项目管理师,云计算、大数据领域专家。黄冈教育谷投资控股有限公司重庆工程校区教学主任,15年以上数据分析大数据领域经验。曾担任:黄冈教育谷投资控股有限公司大数据&网络安全专业委员会主任,香港电讯盈科广东省联通UBIS经营分析系统技术顾问,美国惠普上海GDCC商务智能资深架构师,上海复旦光华信息安全部高级项目经理。曾主导参与:重庆市公共交通政府购买服务大数据平台建设,中国电信3GPP OCS在线计费系统建设,中国交通银行ACRM分析系统总体设计,美国摩托罗拉财务分析系统服务咨询,法国圣戈班石膏建材财务分析总体设计,日本松下集团BI分析系统总体设计,华为BI门户集成顾问咨询,中国南车集团商务智能系统顾问咨询,广东省联通UBIS经营分析系统架构设计。
(1)清晰理论阐述与一线实践案例体现校企融合编排特色。(2)不同项目中合理穿插实战任务,学习目标明确,实用性强。(3)丰富的微课视频,涵盖书中重点和难点,助力读者轻松掌握。