Scrapy---settings 文件中的配置

上周爬了大神的文章列表 这周爬取失败了
会报这么一个错: DEBUG: Crawled (200) <GET https://blog.csdn.net/robots.txt> (referer: None)
这个时候将 settings.py中的 ROBOTSTXT_OBEY = True 改为 ROBOTSTXT_OBEY = False

百度了一下:
robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。
robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的
robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

settings 文件中的配置
可以参考: https://blog.csdn.net/zlc1990628/article/details/84328372
https://www.jianshu.com/p/df9c0d1e9087

BOT_NAME :项目名称
SPIDER_MODULES : 爬虫的模块列表 它是一个list 可以有多个爬虫模块
NEWSPIDER_MODULE: 新建爬虫位置
USER_AGENT: 设置请求中的 User-Agent (浏览器的身份标识,用户代理)
在浏览器network–>Request Headers中
有 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.3
ROBOTSTXT_OBEY 是否遵循爬虫协议 (只是一个公约,并不能保证网站安全)
CONCURRENT_REQUESTS: 并发请求的最大值(默认16)
DOWNLOAD_DELAY: 连续访问同一网站下载页面时中间的间隔,支持小数(默认0)
CONCURRENT_REQUESTS_PER_DOMAIN : 每个域的并发请求数(默认8)
CONCURRENT_REQUESTS_PER_IP: 每个IP的并发请求数
COOKIES_ENABLED: 禁用cookies (默认启用)
TELNETCONSOLE_ENABLED: 禁用Telnet控制台(默认启用) Telnet控制台:https://baike.baidu.com/item/Telnet
DEFAULT_REQUEST_HEADERS: 默认请求头(Request Headers中的内容,User-Agent不能写到这里)
SPIDER_MIDDLEWARES: 保存项目中启用的下载中间件及其顺序的字典(还不清楚干嘛的)
DOWNLOADER_MIDDLEWARES: 保存项目中启用的下载中间件及其顺序的字典
EXTENSIONS: 项目中启用的扩展及顺序的字典
ITEM_PIPELINES:项目中启用的管道及顺序的字典 开启ITEM_PIPELINES 才能在pipelines.py 中接收到item (300是权重值,越小越先执行)
AUTOTHROTTLE_ENABLED: 启用并配置自动节流阀扩展(默认禁用) 防止请求过快,将服务器抓崩
AUTOTHROTTLE_START_DELAY: 自动节流阀扩展 启动延迟
AUTOTHROTTLE_MAX_DELAY: 在高延迟情况下设置的最大下载延迟
AUTOTHROTTLE_TARGET_CONCURRENCY: 自动节流阀扩展并发数
AUTOTHROTTLE_DEBUG: 调试

#启用和配置HTTP缓存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = ‘httpcache’
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage’

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值