scrapy 2.3 下载和处理文件和图像
2021-06-17 10:38 更新
Scrapy 可重复使用 item pipelines 用于下载附加到特定项目的文件(例如,当您 爬取 产品并希望在本地下载其图像时)。这些管道共享一些功能和结构(我们将它们称为媒体管道),但通常您可以使用文件管道或图像管道。
两条管道都实现了以下功能:
- 避免重新下载最近下载的媒体
- 指定存储媒体的位置(文件系统目录、FTP服务器、Amazon S3 bucket、Google云存储bucket)
图像管道有一些用于处理图像的额外功能:
- 将所有下载的图像转换为通用格式(JPG)和模式(RGB)
- 缩略图生成
- 检查图像的宽度/高度以确保它们满足最小限制
这些管道还保留当前正在计划下载的媒体URL的内部队列,并将到达的包含相同媒体的响应连接到该队列。这样可以避免在多个项目共享同一媒体时多次下载同一媒体。
以上内容是否对您有帮助:
更多建议: