scrapy 2.3 启用“Ajax可爬行页”的爬行
2021-06-16 11:37 更新
一些页面(根据2013年的经验数据,高达1%)宣称自己是 ajax crawlable . 这意味着它们提供了内容的纯HTML版本,通常只能通过Ajax提供。页面可以用两种方式表示:
- 通过使用
#!
在url中-这是默认方式; - 通过使用一个特殊的元标签-这种方式在“主”、“索引”网站页面上使用。
Scrapy 处理(1)自动;处理(2)启用 AjaxCrawlMiddleware ::
AJAXCRAWL_ENABLED = True
在进行广泛的爬行时,通常会对许多“索引”网页进行爬行;AjaxCrawl中间件有助于正确地对它们进行爬行。它在默认情况下是关闭的,因为它有一些性能开销,启用它进行聚焦爬行没有什么意义。
以上内容是否对您有帮助:
更多建议: