scrapy的settings文件配置

我安装的scrapy是 2.4.1 版本的,现在把settings文件里面的参数全部拿出来并对应着找到他们代表的含义。

项目名称,默认的USER_AGENT由它来构成,也作为日志记录的日志名

# BOT_NAME = 'spidername'

爬虫应用路径

# SPIDER_MODULES = ['spidername.spiders']
# NEWSPIDER_MODULE = 'spidername.spiders'

客户端User-Agent请求头,这里是默认的值

# USER_AGENT = 'spidername (+http://www.yourdomain.com)'

是否遵循爬虫协议

# ROBOTSTXT_OBEY = False

下载器总共最大处理的并发请求数,默认值16

# CONCURRENT_REQUESTS = 32

如果没有开启智能限速,这个值就代表一个规定死的值,代表对同一网址延迟请求的秒数

# DOWNLOAD_DELAY = 3

每个域名能够被执行的最大并发请求数目,默认值8

# CONCURRENT_REQUESTS_PER_DOMAIN = 16

能够被单个IP处理的并发请求数,默认值0,代表无限制,如果不为零,将影响CONCURRENT_REQUESTS_PER_DOMAIN和DOWNLOAD_DELAY的限制情况

# CONCURRENT_REQUESTS_PER_IP = 16

是否支持cookie,cookiejar进行操作cookie,默认开启

# COOKIES_ENABLED = False

指定是否启用telnet控制台

# TELNETCONSOLE_ENABLED = False

Scrapy发送HTTP请求默认使用的请求头

# DEFAULT_REQUEST_HEADERS = {

#    'Accept': 'text/html',

#    'Accept-Language': 'en',

# }

包含项目中启用的spider中间件及其命令的字典

# SPIDER_MIDDLEWARES = {

#     'test_spider.middlewares.TestSpiderSpiderMiddleware': 543,

# }

Scrapy中默认启用的下载程序中间件的字典。低值更接近引擎,高值更接近下载器

# DOWNLOADER_MIDDLEWARES = {

#     'test_spider.middlewares.UserAgentDownloaderMiddleware': 543,

# }

包含项目中启用的扩展及其顺序的字典

# EXTENSIONS = {

#     'scrapy.extensions.telnet.TelnetConsole': None,

# }

包含要使用的项目管道及其顺序的字典。值是任意的,但是习惯上将它们定义在0-1000范围内。低值优先于高值

# ITEM_PIPELINES = {

#     'test_spider.pipelines.TestSpiderPipeline': 300,

# }

智能限速/自动节流

开启智能限速/自动节流,默认False不开启

# AUTOTHROTTLE_ENABLED = True

起始的延迟

# AUTOTHROTTLE_START_DELAY = 5

最大延迟

# AUTOTHROTTLE_MAX_DELAY = 10

每秒并发请求数的平均值,不能高于CONCURRENT_REQUESTS_PER_DOMAIN或CONCURRENT_REQUESTS_PER_IP,实际并发请求数目可能高于或低于该值,视爬虫情况而定

# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0

调试

# AUTOTHROTTLE_DEBUG = False

缓存

是否启用缓存策略

# HTTPCACHE_ENABLED = True

缓存超时时间

# HTTPCACHE_EXPIRATION_SECS = 0

缓存保存路径

# HTTPCACHE_DIR = 'httpcache'

缓存忽略的Http状态码

# HTTPCACHE_IGNORE_HTTP_CODES = []

缓存存储的插件

# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值