scrapy 2.3 检查网页的源代码

2021-06-17 11:56 更新

有时您需要检查网页的源代码(而不是 DOM )确定所需数据的位置。

使用Scrapy's ​fetch​ 命令下载Scrapy看到的网页内容:

scrapy fetch --nolog https://example.com > response.html

如果所需数据位于 ​<script/>​ 元素,请参见 分析javascript代码 .

如果你找不到想要的数据,首先要确保它不仅仅是垃圾:用HTTP客户端下载网页,比如 curl 或 wget 看看这些信息是否可以在他们得到的响应中找到。

如果他们得到所需数据的响应,请修改您的 Scrapy ​Request​ 以匹配其他HTTP客户端。例如,尝试使用相同的用户代理字符串 (​USER_AGENT​ )或者同样的 ​headers​ .

如果他们也得到了没有所需数据的响应,那么您需要采取措施使您的请求更类似于Web浏览器的请求。见 复制请求 .

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号