【爬虫】Python详细知识点学习路径（附学习资源）

学习本路线内容之前，请先学习Python的基础知识

其他路线：

Python基础 >>

符号表解释：

可根据知识点前的符号按需选学，并获取知识点描述和学习资源。

必学：核⼼知识点，经常⽤到。

建议学：重要知识点，专业⼈⼠的基⽯。

⾯试重点：经常出现的⾯试知识点。

可有可⽆：边缘区域，不是必须探索的地⽅。

知识描绘：知识点描述，快速理解。

学习资源：关联的学习资源。

学习⽬标：阶段性⽬标。

学习路线：爬虫

一、爬虫基础

1. 爬虫概述:

描述: 自动化程序，用于从网页提取信息和数据。

目标: 新闻聚合器 (利用 Scrapy 爬取不同新闻网站的新闻，整合到一个平台)。

学习资源:

Python 静态爬虫入门课程 >>>

Python Scrapy 文档 >>>

Python Scrapy 入门课程 >>>

Python Scrapy 爬虫入门到实战 >>>

2. 爬虫合法性: (必须学习，避免法律风险)

知识产权：避免侵犯网站知识产权（数据、文字、图片、音视频等）。
网络安全法：遵守中国网络安全法律法规，禁止网络攻击、破解、窃取、篡改等违法活动。
隐私保护：不擅自收集、存储、传播他人个人隐私信息（身份证号、手机号等）。
网站规则：遵守各网站的爬虫规则，尊重 robots.txt 文件。
合同和协议：遵守网站提供的 API 或其他爬取协议。
公序良俗：不传播违法、淫秽、暴力等有害信息。

二、数据抓取

1. 常用网络协议 (HTTP/HTTPS):

HTTP: 用于 Web 数据传输的协议，定义客户端和服务器通信规则。
HTTPS: HTTP 的安全版本，使用 SSL/TLS 加密数据传输。

2. HTTP 请求:

学习资源>>>
请求头: 包含请求元数据 (请求方法、目标 URL、用户代理、请求时间等)。
请求参数: 传递给服务器的数据 (GET 请求在 URL 中，POST 请求在请求体中)。
请求类型: GET、POST、PUT、DELETE 等。

3. HTTP 响应:

响应头: 包含响应元数据 (响应状态码、响应时间、服务器信息等)。
响应参数: 服务器返回的数据 (网页内容、JSON 数据、图片等)。

4. Requests 模块: (流行的第三方库，易于使用)

描述: 提供易于使用的 API 发送 HTTP 请求和处理响应 (GET、POST 等)。

学习资源:

Requests 中文文档 >>>

Python Requests 权威指南 >>>

5. urllib 模块: (Python 标准库，功能相对简单)

描述: 提供基本的 HTTP 请求功能，无需额外安装。
学习资源 >>>

三、模拟登录

使用 Requests 库: 发送登录请求，提交用户名和密码，处理 Cookie 保持登录状态。
使用 Selenium 库: 自动化浏览器操作，模拟用户交互完成登录 (适用于 JavaScript 生成的表单)。

四、网站抓取

1. 静态网站抓取:

使用 Requests 库: 发送 GET 请求，获取 HTML 响应，使用解析库 (如 BeautifulSoup) 提取数据。
使用 Scrapy 框架: 适用于爬取多个页面或网站，提供高级功能 (自动化页面遍历、数据存储、异步请求)。

2. 动态网站抓取:

使用 Selenium 库: 自动化浏览器，等待页面加载完成，提取数据。
使用无头浏览器: (如 Puppeteer, Playwright) 渲染 JavaScript 并提取内容。

五、无头浏览器

1. Selenium: 自动化测试工具，模拟用户在 Web 应用中的操作，支持多种编程语言和浏览器。

学习资源 >>>

2. Puppeteer: Node.js 库，控制 Chrome 或 Chromium 浏览器进行自动化操作 (Web 抓取、测试、生成 PDF 等)。

学习资源 >>>

六、数据解析

1. 常用标签 (HTML/XML): 基本的数据解析方法，通过标签名称、属性、层级结构定位和提取数据。

学习资源 >>>

2. BeautifulSoup: Python 库，解析 HTML 和 XML，提供易于使用的 API 遍历文档树和提取数据。

学习资源>>>

3. 正则表达式: 强大的文本模式匹配工具，适用于简单的数据提取任务。

学习资源>>>

4. XPath: 在 XML 文档中定位和提取数据的语言，Python 中可使用 lxml 库处理。

学习资源>>>

七、数据导出

1. 文件:

Excel: 使用 openpyxl 或 pandas 库导出到 Excel 文件。
CSV: 使用 Python 内置库 csv 保存为 CSV 格式。

2. 数据库:

MongoDB: NoSQL 数据库，使用 pymongo 库存储数据。
MySQL: 关系型数据库，使用 mysql-connector 或其他 MySQL 连接库。

八、中间件

Redis: 内存数据库，用于缓存和快速存储临时数据，使用 redis-py 库。

九、Scrapy 框架

1. 核心概念:

命令行工具: 创建、运行、调试和管理爬虫项目 (scrapy startproject, scrapy crawl, scrapy shell 等)。
Spiders (爬虫): 定义如何抓取网站的结构和行为 (继承 scrapy.Spider 类)。
Selectors (选择器): 从 HTML 或 XML 文档中提取数据 (XPath 和 CSS 选择器)。
Items (数据项): 结构化和存储从网页提取的数据 (用户自定义的 Python 字典或类)。
Item Loaders (数据加载器): 填充 Items，处理数据清洗、转换和预处理。
Pipelines (管道): 处理爬取的数据 (存储、清洗、验证、导出等)。
Scrapy Shell: 交互式工具，测试和调试 Scrapy 爬虫。
Link Extractors (链接提取器): 从页面中提取链接 (例如 LinkExtractor)。

2. 调度器: 管理爬虫的任务队列，控制爬取流程和顺序。

3. 分布式爬虫: 将爬虫任务分散到多个节点或机器上，提高效率、速度和容错性。

4. 部署: 将爬虫系统部署到生产环境中运行。

十、并发异步爬虫

aiohttp: 基于 asyncio 的异步 HTTP 请求库，构建高性能、可伸缩的 Web 服务和应用。
asyncio: Python 标准库，提供对异步编程的支持 (异步 I/O、协程和任务)。

十一、高级爬虫技术

IP 代理: 隐藏真实 IP 地址，绕过访问限制，提高爬取速度和匿名性。
验证码识别: 使用图像处理、机器学习或深度学习技术 (如 CNN) 自动识别和破解验证码。
APP 抓取: 模拟移动应用的请求和交互获取数据 (使用 Charles、Fiddler 等抓包工具)。
增量式爬虫: 只爬取自上次爬取以来有更新的数据，提高效率。

十二、反爬虫技术

请求头限制: 限制或检查 HTTP 请求的头部信息 (User-Agent, Referer 等)。
验证码: 识别用户是否为人类的机制。
黑白名单: 控制访问，阻止或允许特定用户或 IP 地址访问网站。
封禁 IP: 根据恶意行为封禁特定 IP 地址。
数据加密: 将数据转换为不可读的形式。
数据混淆: 改变数据的格式或结构，使其难以理解或解析。
行为分析: 监控和分析用户或爬虫的行为，检测异常活动。