计算机类专业教育 > 人工智能类
Python爬虫与数据采集
书号:9787113303587 套系名称:“十四五”高等职业教育新形态一体化教材
作者:方水平 出版日期:2023-10-01
定价:56.00 页码 / 开本: /16
策划编辑:王春霞 责任编辑:王春霞 贾淑媛
适用专业:计算机类 适用层次:高职教育
最新印刷时间:2023-10-01
资源下载
教学课件
教学素材(暂无)
习题答案(暂无)
教学案例(暂无)
教学设计(暂无)
教学视频(暂无)
内容简介
前言
目录
作者介绍
图书特色
本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python 程序开发”1+X 职业技能等级 标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容, 主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、 模拟登录、爬取 App 数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设 计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。 本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网 企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集 清洗和存储等工作岗位的人员参考。
本书为“十四五”高等职业教育新形态一体化教材。 高等职业教育人工智能技术应用专业的培养目标:培养德、智、体、美、劳全面发展,具 有良好职业道德和人文素养,掌握人工智能基础专业理论知识、应用技术,具备人工智能技术 应用开发、系统管理与维护等能力,从事人工智能相关的应用开发、系统集成与运维、产品销 售与咨询、售前售后技术支持等工作的高素质技术技能人才。随着人工智能技术应用专业在各 高职院校的开设,面向高职人工智能技术应用专业的教材较少,基于此,北京工业职业技术学 院组织教师和企业技术人员一起编写了本教材《Python 爬虫与数据采集》。该书以就业为导向, 以能力为本位,为培养高素质技能型专业人才服务,反映产业升级、技术进步和职业岗位变化 的要求,努力体现新知识、新技术、新工艺和新方法。 为了便于学生更好地参加“1+X”职业技能等级考试,本书将《Python 程序开发职业技 能等级标准》融入其中,主要面向 IT 互联网企业、各企事业单位、政府部门等的信息化、数 字化部门,从事 Python 程序开发、爬虫系统开发与维护、数据采集清洗和存储等工作岗位。 本书对接 Python 程序开发“1+X”职业技能等级标准。 本书是基于工作过程开发完成的活页教材,依据“任务导向”“目标先行”“兴趣诱发” 来组织教材内容。主要设置静态网页数据的爬取并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、代理爬虫、模拟登录、爬取 App 数据等项目,培养学生爬虫系统开 发并运维、数据研究和加工处理、爬虫系统的架构设计与开发,构建爬虫服务平台、设计算法, 提升网页爬取的效率和质量等能力。每个任务分为任务分析、导学、学习资料、任务实施、任 务评价等模块,使读者通过由易到难的若干任务实施,完成整个项目的学习过程。这种模块化 的教材组织体系,既覆盖了技能等级标准的全部对应知识点,也便于教师在课堂中的教学实施。 本书由方水平任主编,刘业辉、赵元苏、郭蕊、朱贺新、宋玉娥、杨洪涛、王笑洋参 加编写,在此感谢中国铁道出版社有限公司的倾力支持。 由于技术的发展日新月异,加之编者水平有限,书中不妥之处在所难免,恳请广大读 者批评指正。 编者 2023 年 6 月
项目一 静态网页爬取与解析............. 1-1 任务 1搭建静态网页爬虫环境............ 1-2 任务分析.................................................. 1-2 导学.......................................................... 1-3 学习资料.................................................. 1-5 1. 爬虫基本概念 ................................1-5 2. 爬虫实现原理 ................................1-6 3. 静态网页爬虫环境搭建 ..............1-10 任务实施................................................ 1-13 任务评价................................................ 1-15 任务 2爬取北京市旅游景点信息 ...... 1-18 任务分析................................................ 1-18 导学........................................................ 1-19 学习资料................................................ 1-24 1. HTTP .............................................1-24 2. 网页组成 ......................................1-32 3. urllib 库 .........................................1-38 4. Requests 模块 ...............................1-51 任务实施................................................ 1-55 任务评价................................................ 1-57 任务 3?解析并保存北京市旅游景点 数据........................................ 1-60 任务分析................................................ 1-60 导学........................................................ 1-60 学习资料................................................ 1-65 1. 正则表达式 ..................................1-65 2. 使用 XPath ...................................1-71 3. Beautiful Soup 库 .........................1-81 任务实施................................................ 1-96 任务评价................................................ 1-99 项目二 爬取动态内容......................... 2-1 任务 1?安装 Selenium......................... 2-1 任务分析.................................................. 2-1 导学.......................................................... 2-2 学习资料.................................................. 2-3 任务实施.................................................. 2-5 任务评价.................................................. 2-7 任务 2?利用 Selenium 爬取京东商品 信息数据 ................................. 2-8 任务分析.................................................. 2-8 导学.......................................................... 2-9 学习资料................................................ 2-14 1. Selenium 简介 ..............................2-14 2. Selenium 的应用 ..........................2-15 任务实施................................................ 2-33 任务评价................................................ 2-37 项目三 利用爬虫框架 Scrapy 爬虫 ...3-1 任务 1?安装 Scrapy 框架..................... 3-1 任务分析.................................................. 3-1 导学.......................................................... 3-2 学习资料.................................................. 3-3 1. Anaconda 安装................................3-4 2. Windows 下的安装 ........................3-4 任务实施.................................................. 3-6 任务评价.................................................. 3-9 任务 2利用 Scrapy 框架制作 Spiders 爬取网页数据............................... 3-11 任务分析................................................ 3-11 导学........................................................ 3-11 学习资料................................................ 3-14 1. Scrapy 框架介绍 ..........................3-14 2. Scrapy 的数据流 ..........................3-15 3. Scrapy 常用命令 ..........................3-15 任务实施................................................ 3-18 任务评价................................................ 3-23 项目四 爬虫代理和模拟登录............. 4-1 任务 1爬虫代理.................................. 4-1 任务分析.................................................. 4-1 导学.......................................................... 4-2 学习资料.................................................. 4-3 1. 代理基本原理 ................................4-3 2. 代理的作用 ....................................4-4 3. 代理分类 ........................................4-4 4. Requests 库使用 IP 代理的方法 ......4-5 5. 构建代理池 ....................................4-5 任务实施.................................................. 4-8 任务评价................................................ 4-12 任务 2模拟登录................................ 4-13 任务分析................................................ 4-13 导学........................................................ 4-14 学习资料................................................ 4-16 1. 用户登录 ......................................4-16 2. Cookie ...........................................4-16 3. Session ..........................................4-17 4. JWT ...............................................4-17 5. 基于 Session 和 Cookie 的模拟 登录 ..............................................4-18 6. 基于 Session 和 Cookie 的模拟 登录实例 ......................................4-19 任务实施................................................ 4-20 任务评价................................................ 4-21 项目五 App 的爬取 ............................ 5-1 任务 1App 爬虫环境搭建................... 5-1 任务分析.................................................. 5-1 导学.......................................................... 5-2 学习资料.................................................. 5-4 1. App 爬取的主要流程 .....................5-4 2. Charles 的安装 ...............................5-4 3. 安装 JAVA JDK ..............................5-5 4. 安装 Android SDK Tools ................5-5 5. Appium 的安装 ...............................5-5 任务实施.................................................. 5-6 任务评价................................................ 5-14 任务 2爬取微博主页推荐信息.......... 5-16 任务分析................................................ 5-16 导学........................................................ 5-17 学习资料................................................ 5-18 1. Charles 简介 .................................5-18 2. Appium 简介 .................................5-27 任务实施................................................ 5-29 任务评价................................................ 5-33 参考文献 ............................................... C-1
方水平,男,1970年2月生,教授,近几年主编了多部教材,多种图书被评为“十二五”“十三五”职业教育国家规划教材,主持多项信息化教学设计项目获得北京市二等奖。指导学生参加技能大赛获得良好的成绩,连续获得5个全国职业院校学生技能大赛一等奖,被北京市教委授予“首席指导教师称号”,2018年主持课题获北京市教育成果二等奖。
本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网 企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集 清洗和存储等工作岗位的人员参考。