计算机类教材 > 网络技术及计算机安全

Python网络爬虫实战

书号:9787113286583 套系名称:职业教育赛教一体化课程改革系列规划教材

作者:邓晨曦 出版日期:2022-02-01

定价:39.00 页码 / 开本:无 /16

策划编辑:徐海英 王春霞 责任编辑:王春霞 彭立辉

适用专业:计算机类 适用层次:高等职业(专科)

最新印刷时间:2023-07-12

资源下载
教学课件 教学素材(暂无)
习题答案 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  • 本书基于 Python 3,系统全面地讲解了 Python 网络爬虫的基础知识。全书共分 11 章,内容包括网络爬虫概述、网页请求原理与爬虫基础、 urllib 库与异常处理、 requests 库、数据解析技术、Beautiful Soup 库、动态页面爬取、爬虫数据的存储、爬虫框架 Scrapy、 CrawlSpider、图像识别与文字处理。
    本书适合作为高等职业院校电子信息类各专业的教材,也可作为培训学校的培训教材,以及Python 爬虫爱好者的自学用书。
    
  • 为认真贯彻落实教育部实施新时代中国特色高水平高职学校和专业群建设,扎实、持续地推进职校改革,强化内涵建设和高质量发展,落实双高计划,抓好职业院校信息技术人才培养方案实施及配套建设,我们统筹规划并启动了“职业教育赛教一体化课程改革系列规划教材”(云计算技术与应用、大数据技术与应用、网络综合布线、传感器应用技术、物联网 .NET 开发、物联网嵌入式开发、物联网移动应用开发、 Python 网络爬虫实战)。本系列教材是由教育教学一线专家、教育企业一线工程师、中国铁道出版社有限公司精英数十人团队的匠心之作,是全体编委精益求精,在日复一日、年复一年的工作中不断探索和超越的教学结晶。本书教学设计遵循教学规律,涉及内容是真实项目的拆分与提炼。
    本书基于 Python 3,系统全面地讲解了 Python 网络爬虫的基础知识。全书共分 11 章,具体介绍如下:
    第 1、 2 章主要介绍网络爬虫的概念及实现原理,希望读者能够明白爬虫爬取网页的过程,并对产生的一些问题有所了解。第 3~6 章详细介绍了网页数据解析的相关技术,包括 urllib 库的使用、 requests 库、xml、 XPath、 Beautiful Soup 等。第 7 章主要介绍动态网页爬取的内容,希望读者掌握抓取动态网页的一些技巧。第 8 章主要介绍爬虫数据存储的内容,包括使用 MySQL 与 MongoDB 数据库进行数据存储的相关知识。通过案例实操,讲解了如何一步步从网站中爬取、解析、存储电影信息。希望读者在存储爬虫数据时根据具体情况灵活选择合理的技术进行运用。第 9、 10 章主要介绍爬虫框架 Scrapy 以及自动爬取网页的爬虫 CrawlSpider 的相关知识。通过对这两章的学习,可了解框架的基本知识与应用,为以后深入学习打下坚实基础。第 11 章主要介绍图像识别与文字处理等内容,希望读者学会处理一些字符格式规范的图像和简单的验证码。
    本书由湖南环境生物职业技术学院的邓晨曦任主编,武汉唯众智创科技有限公司的陈家枫、仙桃职业学院的李明海、襄阳职业技术学院的田勇、重庆工商职业学院的向涛任副主编。具体分工如下:邓晨曦编写第 1 章、第 2 章、第 5 章、第 6 章、第 8 章、第 11 章;陈家枫编写第 3 章、第 4 章;李明海编写第 7 章;田勇编写第 9 章;向涛编写第 10 章。全书由邓晨曦统稿。
    由于时间仓促,编者水平有限,书中难免存在疏漏与不妥之处,敬请广大读者批评指正。
    编者
    2021 年 7 月
    
    
  • 第1章 网络爬虫概述
    1.1爬虫产生背景
    1.1.1企业产生的数据
    1.1.2数据平台购买的数据
    1.1.3政府/机构公开的数据
    1.1.4数据管理咨询公司的数据
    1.1.5爬取的网络数据
    1.2爬虫的概念
    1.3爬虫的用途
    1.4爬虫的组成
    1.5爬虫的类型
    1.5.1通用爬虫
    1.5.2聚焦爬虫
    1.5.3累积式和增量式爬虫
    1.5.4表层爬虫和深层爬虫
    第2章 网页请求原理与爬虫基础
    2.1爬虫实现原理
    2.1.1通用爬虫
    2.1.2聚焦爬虫
    2.2 HTTP基础
    2.2.1 HTTP与HTTPS
    2.2.2 HTTP请求过程
    2.2.3客户端请求
    2.2.4服务端响应
    2.3网页基础
    2.4抓包工具Fiddle
    2.4.1 Fiddler简介
    2.4.2 Fiddler工作原理与界面
    2.4.3 Fiddler爬取HTTPS设置
    2.4.4 Fiddler捕获Chrome会话
    第3章 urllib库与异常处理
    3.1 urllib库简介
    3.1.1快速使用urllib爬取网页
    3.1.2 urllib数据传输
    3.1.3浏览器模拟——Headers请求伪装
    3.2代理服务器设置
    3.3超时设置
    3.4异常处理
    3.4.1 URLError
    3.4.2 HTTPError
    3.5 urllib库爬虫实战——百度贴吧
    第4章 requests库
    4.1 requests库概述
    4.1.1实例引入
    4.1.2 request
    4.1.3 response
    4.1.4 Robots协议
    4.2高级用法
    4.2.1文件上传
    4.2.2 Cookies.
    4.2.3 SSL证书验证
    4.2.4会话保持
    第5章 数据解析技术.
    5.1网页数据和结构
    5.1.1网页数据格式
    5.1.2网页结构
    5.2 lxml
    5.2.1安装lxml
    5.2.2 lxml库的使用
    5.3 XPath
    5.3.1节点关系
    5.3.2 XPath语法
    5.3.3节点轴
    5.4 pyquery
    5.4.1 pyquery安装
    5.4.2使用pyquery
    第6章 Beautiful.Soup库
    6.1 Beautiful Soup简介
    6.1.1 Windows下安装Beautiful Soup
    6.1.2 Linux下安装Beautiful Soup
    6.1.3创建 Beautiful Soup对象
    6.2对象种类
    6.2.1 Tag
    6.2.2 NavigableString
    6.2.3 BeautifulSoup
    6.2.4 Comment
    6.3遍历文档树
    6.3.1子节点
    6.3.2父节点
    6.3.3兄弟节点
    6.3.4前后节点
    6.3.5搜索文档树
    6.3.6 CSS选择器
    第7章 动态页面爬取
    7.1动态网页介绍
    7.1.1 JavaScript
    7.1.2 jQuery
    7.1.3 AJAX
    7.1.4 DHTML
    7.2安装Selenium和PhantomJS模块
    7.2.1 Selenium下载安装
    7.2.2 PhantomJS下载安装
    7.3 Selenium和PhantomJS基本操作
    7.3.1基本使用
    7.3.2声明浏览器对象
    7.3.3节点查找
    7.3.4鼠标动作链
    7.3.5填充表单
    7.3.6弹窗处理
    7.3.7页面切换
    7.3.8页面前进和后退
    7.3.9 Cookies
    7.3.10页面等待
    7.4案例——模拟登录QQ邮箱
    7.5案例——模拟登录物联网融合云平台
    第8章 爬虫数据的存储
    8.1数据存储概述
    8.2文件存储
    8.2.1 TXT文本存储
    8.2.2 JSON文件存储
    8.2.3把数据存储到CSV
    8.3数据库存储
    8.3.1 MySQL
    8.3.2 MongoDB
    8.4使用MySQL存储网站电影信息
    8.4.1页面分析
    8.4.2爬取全部页面
    8.4.3通过bs4选取数据
    8.4.4通过MySQL存储电影信息
    8.5使用MongoDB存储网站音乐信息
    8.5.1页面分析
    8.5.2爬取全部页面
    8.5.3通过bs4选取数据
    8.5.4通过MongoDB存储音乐信息
    第9章 爬虫框架Scrapy
    9.1常见Python爬虫框架
    9.2 Scrapy安装与配置
    9.2.1 Windows下的安装与配置
    9.2.2 Linux下的安装与配置
    9.2.3 MAC下的安装与配置
    9.3 Scrapy基本操作
    9.3.1项目创建
    9.3.2文件介绍
    9.3.3代码编写
    9.3.4常用命令
    9.4 Scrapy架构
    9.4.1 Scrapy框架介绍
    9.4.2数据流
    第10章 CrawlSpide
    10.1 CrawlSpider简介
    10.2 LinkExtractor链接提取
    10.3 CrawlSpider实战
    第11章 图像识别与文字处理
    11.1 OCR概述
    11.1.1 Tesseract
    11.1.2 Pillow和pytesseract
    11.2处理规范格式的文字
    11.3验证码读取
    
  • 邓晨曦,湖南衡阳人,毕业于湖南师范大学,硕士研究生学位、副教授、软件工程师、中国计算机学会会员。现任湖南环境生物职业技术学院生态宜居学院计算机专业教师。从事教育教学工作以来,发表SCI论文1篇、中文核心论文1篇,其他省级刊物发表论文10余篇;申请发明专利1项,授权实用新型专利2项;主持市厅课题1项,参与省级课题1项,院长基金课题1项;主编、参编出版教材6本;指导学生参加国家级、省级技能竞赛,多次获得一、二、三等奖。