计算机类专业教育 > 人工智能类

Python爬虫与数据采集

书号:9787113303587 套系名称:“十四五”高等职业教育新形态一体化教材

作者:方水平 出版日期:2023-10-01

定价:56.00 页码 / 开本: /16

策划编辑:王春霞 责任编辑:王春霞 贾淑媛

适用专业:计算机类 适用层次:高职教育

最新印刷时间:2023-10-01

资源下载
教学课件 教学素材(暂无)
习题答案(暂无) 教学案例(暂无)
教学设计(暂无) 教学视频(暂无)
内容简介 前言 目录 作者介绍 图书特色
  •     本书是针对高等职业教育人工智能技术应用专业培养目标,对接“Python 程序开发”1+X 职业技能等级
    
    标准,基于工作过程开发完成的活页式教材,依据“任务导向”“目标先行”“兴趣诱发”来组织教材内容,
    
    主要设置爬取静态网页的数据并解析、爬取动态网页的数据并解析、利用 Scrapy 框架进行爬取、爬虫代理、
    
    模拟登录、爬取 App 数据等项目,培养学生开发爬虫系统并运维、数据研究和加工处理、爬虫系统的架构设
    
    计与开发,构建抓虫服务平台、设计算法,提升网页爬取的效率和质量的能力。
    
    本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网
    
    企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集
    
    清洗和存储等工作岗位的人员参考。
    
    
    
  • 本书为“十四五”高等职业教育新形态一体化教材。
    
    高等职业教育人工智能技术应用专业的培养目标:培养德、智、体、美、劳全面发展,具
    
    有良好职业道德和人文素养,掌握人工智能基础专业理论知识、应用技术,具备人工智能技术
    
    应用开发、系统管理与维护等能力,从事人工智能相关的应用开发、系统集成与运维、产品销
    
    售与咨询、售前售后技术支持等工作的高素质技术技能人才。随着人工智能技术应用专业在各
    
    高职院校的开设,面向高职人工智能技术应用专业的教材较少,基于此,北京工业职业技术学
    
    院组织教师和企业技术人员一起编写了本教材《Python 爬虫与数据采集》。该书以就业为导向,
    
    以能力为本位,为培养高素质技能型专业人才服务,反映产业升级、技术进步和职业岗位变化
    
    的要求,努力体现新知识、新技术、新工艺和新方法。
    
    为了便于学生更好地参加“1+X”职业技能等级考试,本书将《Python 程序开发职业技
    
    能等级标准》融入其中,主要面向 IT 互联网企业、各企事业单位、政府部门等的信息化、数
    
    字化部门,从事 Python 程序开发、爬虫系统开发与维护、数据采集清洗和存储等工作岗位。
    
    本书对接 Python 程序开发“1+X”职业技能等级标准。
    
    本书是基于工作过程开发完成的活页教材,依据“任务导向”“目标先行”“兴趣诱发”
    
    来组织教材内容。主要设置静态网页数据的爬取并解析、爬取动态网页的数据并解析、利用
    
    Scrapy 框架进行爬取、代理爬虫、模拟登录、爬取 App 数据等项目,培养学生爬虫系统开
    
    发并运维、数据研究和加工处理、爬虫系统的架构设计与开发,构建爬虫服务平台、设计算法,
    
    提升网页爬取的效率和质量等能力。每个任务分为任务分析、导学、学习资料、任务实施、任
    
    务评价等模块,使读者通过由易到难的若干任务实施,完成整个项目的学习过程。这种模块化
    
    的教材组织体系,既覆盖了技能等级标准的全部对应知识点,也便于教师在课堂中的教学实施。
    
    本书由方水平任主编,刘业辉、赵元苏、郭蕊、朱贺新、宋玉娥、杨洪涛、王笑洋参
    
    加编写,在此感谢中国铁道出版社有限公司的倾力支持。
    
    由于技术的发展日新月异,加之编者水平有限,书中不妥之处在所难免,恳请广大读
    
    者批评指正。
    
     编者
    
    2023 年 6 月
    
  • 项目一 静态网页爬取与解析............. 1-1
    
    任务 1搭建静态网页爬虫环境............ 1-2
    
    任务分析.................................................. 1-2
    
    导学.......................................................... 1-3
    
    学习资料.................................................. 1-5
    
    1. 爬虫基本概念 ................................1-5
    
    2. 爬虫实现原理 ................................1-6
    
    3. 静态网页爬虫环境搭建 ..............1-10
    
    任务实施................................................ 1-13
    
    任务评价................................................ 1-15
    
    任务 2爬取北京市旅游景点信息 ...... 1-18
    
    任务分析................................................ 1-18
    
    导学........................................................ 1-19
    
    学习资料................................................ 1-24
    
    1. HTTP .............................................1-24
    
    2. 网页组成 ......................................1-32
    
    3. urllib 库 .........................................1-38
    
    4. Requests 模块 ...............................1-51
    
    任务实施................................................ 1-55
    
    任务评价................................................ 1-57
    
    任务 3?解析并保存北京市旅游景点
    
     数据........................................ 1-60
    
    任务分析................................................ 1-60
    
    导学........................................................ 1-60
    
    学习资料................................................ 1-65
    
    1. 正则表达式 ..................................1-65
    
    2. 使用 XPath ...................................1-71
    
    3. Beautiful Soup 库 .........................1-81
    
    任务实施................................................ 1-96
    
    任务评价................................................ 1-99
    
    项目二 爬取动态内容......................... 2-1
    
    任务 1?安装 Selenium......................... 2-1
    
    任务分析.................................................. 2-1
    
    导学.......................................................... 2-2
    
    学习资料.................................................. 2-3
    
    任务实施.................................................. 2-5
    
    任务评价.................................................. 2-7
    
    任务 2?利用 Selenium 爬取京东商品 
    
     信息数据 ................................. 2-8
    
    任务分析.................................................. 2-8
    
    导学.......................................................... 2-9
    
    学习资料................................................ 2-14
    
    1. Selenium 简介 ..............................2-14
    
    2. Selenium 的应用 ..........................2-15
    
    任务实施................................................ 2-33
    
    任务评价................................................ 2-37
    
    项目三 利用爬虫框架 Scrapy 爬虫 ...3-1
    
    任务 1?安装 Scrapy 框架..................... 3-1
    
    任务分析.................................................. 3-1
    
    导学.......................................................... 3-2
    
    学习资料.................................................. 3-3
    
    1. Anaconda 安装................................3-4
    
    2. Windows 下的安装 ........................3-4
    
    任务实施.................................................. 3-6
    
    任务评价.................................................. 3-9
    
    任务 2利用 Scrapy 框架制作 Spiders
    
     爬取网页数据............................... 3-11
    
    任务分析................................................ 3-11
    
    导学........................................................ 3-11
    
    学习资料................................................ 3-14
    
    1. Scrapy 框架介绍 ..........................3-14
    
    2. Scrapy 的数据流 ..........................3-15
    
    3. Scrapy 常用命令 ..........................3-15
    
    任务实施................................................ 3-18
    
    任务评价................................................ 3-23
    
    项目四 爬虫代理和模拟登录............. 4-1
    
    任务 1爬虫代理.................................. 4-1
    
    任务分析.................................................. 4-1
    
    导学.......................................................... 4-2
    
    学习资料.................................................. 4-3
    
    1. 代理基本原理 ................................4-3
    
    2. 代理的作用 ....................................4-4
    
    3. 代理分类 ........................................4-4
    
    4. Requests 库使用 IP 代理的方法 ......4-5
    
    5. 构建代理池 ....................................4-5
    
    任务实施.................................................. 4-8
    
    任务评价................................................ 4-12
    
    任务 2模拟登录................................ 4-13
    
    任务分析................................................ 4-13
    
    导学........................................................ 4-14
    
    学习资料................................................ 4-16
    
    1. 用户登录 ......................................4-16
    
    2. Cookie ...........................................4-16
    
    3. Session ..........................................4-17
    
    4. JWT ...............................................4-17
    
    5. 基于 Session 和 Cookie 的模拟
    
     登录 ..............................................4-18
    
    6. 基于 Session 和 Cookie 的模拟
    
     登录实例 ......................................4-19
    
    任务实施................................................ 4-20
    
    任务评价................................................ 4-21
    
    项目五 App 的爬取 ............................ 5-1
    
    任务 1App 爬虫环境搭建................... 5-1
    
    任务分析.................................................. 5-1
    
    导学.......................................................... 5-2
    
    学习资料.................................................. 5-4
    
    1. App 爬取的主要流程 .....................5-4
    
    2. Charles 的安装 ...............................5-4
    
    3. 安装 JAVA JDK ..............................5-5
    
    4. 安装 Android SDK Tools ................5-5
    
    5. Appium 的安装 ...............................5-5
    
    任务实施.................................................. 5-6
    
    任务评价................................................ 5-14
    
    任务 2爬取微博主页推荐信息.......... 5-16
    
    任务分析................................................ 5-16
    
    导学........................................................ 5-17
    
    学习资料................................................ 5-18
    
    1. Charles 简介 .................................5-18
    
    2. Appium 简介 .................................5-27
    
    任务实施................................................ 5-29
    
    任务评价................................................ 5-33
    
    参考文献 ............................................... C-1
    
  • 方水平,男,1970年2月生,教授,近几年主编了多部教材,多种图书被评为“十二五”“十三五”职业教育国家规划教材,主持多项信息化教学设计项目获得北京市二等奖。指导学生参加技能大赛获得良好的成绩,连续获得5个全国职业院校学生技能大赛一等奖,被北京市教委授予“首席指导教师称号”,2018年主持课题获北京市教育成果二等奖。
  • 本书适合作为高职人工智能技术应用、计算机应用技术、移动应用开发等专业的教材,也适合 IT 互联网
    企业、各企事业单位、政府部门等的信息化、数字化部门从事 Python 程序开发、爬虫开发与维护、数据采集
    清洗和存储等工作岗位的人员参考。