教育资源数字化平台

计算机类专业教育 > 人工智能类

Python爬虫与数据采集

书号：9787113303587 套系名称：“十四五”高等职业教育新形态一体化教材

作者：方水平出版日期：2023-10-01

定价：56.00 页码 / 开本： /16

策划编辑：王春霞责任编辑：王春霞贾淑媛

适用专业：计算机类适用层次：高职教育

最新印刷时间：2023-10-01

在线阅读

资源下载

教学课件教学素材(暂无)

习题答案(暂无) 教学案例(暂无)

教学设计(暂无) 教学视频(暂无)

内容简介前言目录作者介绍图书特色

    本书是针对高等职业教育人工智能技术应用专业培养目标，对接“Python 程序开发”1+X 职业技能等级

标准，基于工作过程开发完成的活页式教材，依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容，

主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、

模拟登录、爬取 App 数据等项目，培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设

计与开发，构建抓虫服务平台、设计算法，提升网页爬取的效率和质量的能力。

本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材，也适合 IT 互联网

企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集

清洗和存储等工作岗位的人员参考。

本书为“十四五”高等职业教育新形态一体化教材。

高等职业教育人工智能技术应用专业的培养目标：培养德、智、体、美、劳全面发展，具

有良好职业道德和人文素养，掌握人工智能基础专业理论知识、应用技术，具备人工智能技术

应用开发、系统管理与维护等能力，从事人工智能相关的应用开发、系统集成与运维、产品销

售与咨询、售前售后技术支持等工作的高素质技术技能人才。随着人工智能技术应用专业在各

高职院校的开设，面向高职人工智能技术应用专业的教材较少，基于此，北京工业职业技术学

院组织教师和企业技术人员一起编写了本教材《Python 爬虫与数据采集》。该书以就业为导向，

以能力为本位，为培养高素质技能型专业人才服务，反映产业升级、技术进步和职业岗位变化

的要求，努力体现新知识、新技术、新工艺和新方法。

为了便于学生更好地参加“1+X”职业技能等级考试，本书将《Python 程序开发职业技

能等级标准》融入其中，主要面向 IT 互联网企业、各企事业单位、政府部门等的信息化、数

字化部门，从事 Python 程序开发、爬虫系统开发与维护、数据采集清洗和存储等工作岗位。

本书对接 Python 程序开发“1+X”职业技能等级标准。

本书是基于工作过程开发完成的活页教材，依据“任务导向”“目标先行”“兴趣诱发”

来组织教材内容。主要设置静态网页数据的爬取并解析、爬取动态网页的数据并解析、利用

Scrapy 框架进行爬取、代理爬虫、模拟登录、爬取 App 数据等项目，培养学生爬虫系统开

发并运维、数据研究和加工处理、爬虫系统的架构设计与开发，构建爬虫服务平台、设计算法，

提升网页爬取的效率和质量等能力。每个任务分为任务分析、导学、学习资料、任务实施、任

务评价等模块，使读者通过由易到难的若干任务实施，完成整个项目的学习过程。这种模块化

的教材组织体系，既覆盖了技能等级标准的全部对应知识点，也便于教师在课堂中的教学实施。

本书由方水平任主编，刘业辉、赵元苏、郭蕊、朱贺新、宋玉娥、杨洪涛、王笑洋参

加编写，在此感谢中国铁道出版社有限公司的倾力支持。

由于技术的发展日新月异，加之编者水平有限，书中不妥之处在所难免，恳请广大读

者批评指正。

 编者

2023 年 6 月

项目一 静态网页爬取与解析............. 1-1

任务 1搭建静态网页爬虫环境............ 1-2

任务分析.................................................. 1-2

导学.......................................................... 1-3

学习资料.................................................. 1-5

1. 爬虫基本概念 ................................1-5

2. 爬虫实现原理 ................................1-6

3. 静态网页爬虫环境搭建 ..............1-10

任务实施................................................ 1-13

任务评价................................................ 1-15

任务 2爬取北京市旅游景点信息 ...... 1-18

任务分析................................................ 1-18

导学........................................................ 1-19

学习资料................................................ 1-24

1. HTTP .............................................1-24

2. 网页组成 ......................................1-32

3. urllib 库 .........................................1-38

4. Requests 模块 ...............................1-51

任务实施................................................ 1-55

任务评价................................................ 1-57

任务 3？解析并保存北京市旅游景点

 数据........................................ 1-60

任务分析................................................ 1-60

导学........................................................ 1-60

学习资料................................................ 1-65

1. 正则表达式 ..................................1-65

2. 使用 XPath ...................................1-71

3. Beautiful Soup 库 .........................1-81

任务实施................................................ 1-96

任务评价................................................ 1-99

项目二 爬取动态内容......................... 2-1

任务 1？安装 Selenium......................... 2-1

任务分析.................................................. 2-1

导学.......................................................... 2-2

学习资料.................................................. 2-3

任务实施.................................................. 2-5

任务评价.................................................. 2-7

任务 2？利用 Selenium 爬取京东商品 

 信息数据 ................................. 2-8

任务分析.................................................. 2-8

导学.......................................................... 2-9

学习资料................................................ 2-14

1. Selenium 简介 ..............................2-14

2. Selenium 的应用 ..........................2-15

任务实施................................................ 2-33

任务评价................................................ 2-37

项目三 利用爬虫框架 Scrapy 爬虫 ...3-1

任务 1？安装 Scrapy 框架..................... 3-1

任务分析.................................................. 3-1

导学.......................................................... 3-2

学习资料.................................................. 3-3

1. Anaconda 安装................................3-4

2. Windows 下的安装 ........................3-4

任务实施.................................................. 3-6

任务评价.................................................. 3-9

任务 2利用 Scrapy 框架制作 Spiders

 爬取网页数据............................... 3-11

任务分析................................................ 3-11

导学........................................................ 3-11

学习资料................................................ 3-14

1. Scrapy 框架介绍 ..........................3-14

2. Scrapy 的数据流 ..........................3-15

3. Scrapy 常用命令 ..........................3-15

任务实施................................................ 3-18

任务评价................................................ 3-23

项目四 爬虫代理和模拟登录............. 4-1

任务 1爬虫代理.................................. 4-1

任务分析.................................................. 4-1

导学.......................................................... 4-2

学习资料.................................................. 4-3

1. 代理基本原理 ................................4-3

2. 代理的作用 ....................................4-4

3. 代理分类 ........................................4-4

4. Requests 库使用 IP 代理的方法 ......4-5

5. 构建代理池 ....................................4-5

任务实施.................................................. 4-8

任务评价................................................ 4-12

任务 2模拟登录................................ 4-13

任务分析................................................ 4-13

导学........................................................ 4-14

学习资料................................................ 4-16

1. 用户登录 ......................................4-16

2. Cookie ...........................................4-16

3. Session ..........................................4-17

4. JWT ...............................................4-17

5. 基于 Session 和 Cookie 的模拟

 登录 ..............................................4-18

6. 基于 Session 和 Cookie 的模拟

 登录实例 ......................................4-19

任务实施................................................ 4-20

任务评价................................................ 4-21

项目五 App 的爬取 ............................ 5-1

任务 1App 爬虫环境搭建................... 5-1

任务分析.................................................. 5-1

导学.......................................................... 5-2

学习资料.................................................. 5-4

1. App 爬取的主要流程 .....................5-4

2. Charles 的安装 ...............................5-4

3. 安装 JAVA JDK ..............................5-5

4. 安装 Android SDK Tools ................5-5

5. Appium 的安装 ...............................5-5

任务实施.................................................. 5-6

任务评价................................................ 5-14

任务 2爬取微博主页推荐信息.......... 5-16

任务分析................................................ 5-16

导学........................................................ 5-17

学习资料................................................ 5-18

1. Charles 简介 .................................5-18

2. Appium 简介 .................................5-27

任务实施................................................ 5-29

任务评价................................................ 5-33

参考文献 ............................................... C-1

方水平，男，1970年2月生，教授，近几年主编了多部教材，多种图书被评为“十二五”“十三五”职业教育国家规划教材，主持多项信息化教学设计项目获得北京市二等奖。指导学生参加技能大赛获得良好的成绩，连续获得5个全国职业院校学生技能大赛一等奖，被北京市教委授予“首席指导教师称号”，2018年主持课题获北京市教育成果二等奖。

本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材，也适合 IT 互联网
企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集
清洗和存储等工作岗位的人员参考。