阅读(1.8k) 书签赞(0) 我要纠错

scrapy 2.3 启用“Ajax可爬行页”的爬行

2021-06-16 11:37 更新

一些页面（根据2013年的经验数据，高达1%）宣称自己是 ajax crawlable . 这意味着它们提供了内容的纯HTML版本，通常只能通过Ajax提供。页面可以用两种方式表示：

Scrapy 处理（1）自动；处理（2）启用 AjaxCrawlMiddleware ：：

AJAXCRAWL_ENABLED = True

在进行广泛的爬行时，通常会对许多“索引”网页进行爬行；AjaxCrawl中间件有助于正确地对它们进行爬行。它在默认情况下是关闭的，因为它有一些性能开销，启用它进行聚焦爬行没有什么意义。

以上内容是否对您有帮助：

写笔记

我要补充

推荐文章