scrapy 2.3 启用“Ajax可爬行页”的爬行

2021-06-16 11:37 更新

一些页面(根据2013年的经验数据,高达1%)宣称自己是 ajax crawlable . 这意味着它们提供了内容的纯HTML版本,通常只能通过Ajax提供。页面可以用两种方式表示:

  1. 通过使用 ​#!​ 在url中-这是默认方式;
  2. 通过使用一个特殊的元标签-这种方式在“主”、“索引”网站页面上使用。

Scrapy 处理(1)自动;处理(2)启用 AjaxCrawlMiddleware ::

AJAXCRAWL_ENABLED = True

在进行广泛的爬行时,通常会对许多“索引”网页进行爬行;AjaxCrawl中间件有助于正确地对它们进行爬行。它在默认情况下是关闭的,因为它有一些性能开销,启用它进行聚焦爬行没有什么意义。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号