scrapy 2.3 检查网页的源代码
2021-06-17 11:56 更新
有时您需要检查网页的源代码(而不是 DOM )确定所需数据的位置。
使用Scrapy's fetch
命令下载Scrapy看到的网页内容:
scrapy fetch --nolog https://example.com > response.html
如果所需数据位于 <script/>
元素,请参见 分析javascript代码 .
如果你找不到想要的数据,首先要确保它不仅仅是垃圾:用HTTP客户端下载网页,比如 curl 或 wget 看看这些信息是否可以在他们得到的响应中找到。
如果他们得到所需数据的响应,请修改您的 Scrapy Request
以匹配其他HTTP客户端。例如,尝试使用相同的用户代理字符串 (USER_AGENT
)或者同样的 headers
.
如果他们也得到了没有所需数据的响应,那么您需要采取措施使您的请求更类似于Web浏览器的请求。见 复制请求 .
以上内容是否对您有帮助:
更多建议: