scrapy中settings.py的配置
摘要:关于scrapy中settings.py的一些配置
settings.py常用参数
- DEFAULT_REQUEST_HEADERS、USER_AGENT
DEFAULT_REQUEST_HEADERS 和 USER_AGENT 都可以拿来设置UA头,当两者冲突时EFAULT_REQUEST_HEADERS优先于USER_AGENT DOWNLOAD_DELAY
下载延迟,每一个请求之间的间隔.自动降速防止被检查到是爬虫
CONCURRENT_REQUESTS
Scrapy downloader 并发请求(concurrent requests)的最大值,可增加这个值,增加多少取决于爬虫占CPU多少
默认:16
CONCURRENT_REQUESTS_PER_DOMAIN
对单个网站进行并发请求的最大值 默认:8
CONCURRENT_REQUESTS_PER_IP
对单个IP进行并发请求的最大值。如果非0,则忽略 CONCURRENT_REQUESTS_PER_DOMAIN 设定, 使用该设定。 也就是说,并发限制将针对IP,而不是网站。该设定也影响 DOWNLOAD_DELAY: 如果 CONCURRENT_REQUESTS_PER_IP 非0,下载延迟应用在IP而不是网站上
默认:0
参考
本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可。