Scrapy---settings 文件中的配置

最新推荐文章于 2022-03-30 15:18:51 发布

Fuly1024

最新推荐文章于 2022-03-30 15:18:51 发布

阅读量581

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/xy3233/article/details/105870010

版权

Python 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

上周爬了大神的文章列表这周爬取失败了
会报这么一个错: DEBUG: Crawled (200) <GET https://blog.csdn.net/robots.txt> (referer: None)
这个时候将 settings.py中的 ROBOTSTXT_OBEY = True 改为 ROBOTSTXT_OBEY = False

百度了一下:
robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。
robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的
robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

settings 文件中的配置
可以参考: https://blog.csdn.net/zlc1990628/article/details/84328372
https://www.jianshu.com/p/df9c0d1e9087

BOT_NAME :项目名称
SPIDER_MODULES : 爬虫的模块列表它是一个list 可以有多个爬虫模块
NEWSPIDER_MODULE: 新建爬虫位置
USER_AGENT: 设置请求中的　User-Agent (浏览器的身份标识，用户代理)
在浏览器network–>Request Headers中
有 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.3
ROBOTSTXT_OBEY 是否遵循爬虫协议 (只是一个公约,并不能保证网站安全)
CONCURRENT_REQUESTS: 并发请求的最大值(默认16)
DOWNLOAD_DELAY: 连续访问同一网站下载页面时中间的间隔,支持小数(默认0)
CONCURRENT_REQUESTS_PER_DOMAIN : 每个域的并发请求数(默认8)
CONCURRENT_REQUESTS_PER_IP: 每个IP的并发请求数
COOKIES_ENABLED: 禁用cookies (默认启用)
TELNETCONSOLE_ENABLED: 禁用Telnet控制台(默认启用) Telnet控制台:https://baike.baidu.com/item/Telnet
DEFAULT_REQUEST_HEADERS: 默认请求头(Request Headers中的内容,User-Agent不能写到这里)
SPIDER_MIDDLEWARES: 保存项目中启用的下载中间件及其顺序的字典(还不清楚干嘛的)
DOWNLOADER_MIDDLEWARES: 保存项目中启用的下载中间件及其顺序的字典
EXTENSIONS: 项目中启用的扩展及顺序的字典
ITEM_PIPELINES:项目中启用的管道及顺序的字典开启ITEM_PIPELINES 才能在pipelines.py 中接收到item (300是权重值，越小越先执行)
AUTOTHROTTLE_ENABLED: 启用并配置自动节流阀扩展(默认禁用)　防止请求过快，将服务器抓崩
AUTOTHROTTLE_START_DELAY: 自动节流阀扩展启动延迟
AUTOTHROTTLE_MAX_DELAY: 在高延迟情况下设置的最大下载延迟
AUTOTHROTTLE_TARGET_CONCURRENCY: 自动节流阀扩展并发数
AUTOTHROTTLE_DEBUG: 调试

#启用和配置HTTP缓存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = ‘httpcache’
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage’

Fuly1024

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy---settings 文件中的配置

上周爬了大神的文章列表这周爬取失败了会报这么一个错: DEBUG: Crawled (200) <GET https://blog.csdn.net/robots.txt> (referer: None)这个时候将 settings.py中的 ROBOTSTXT_OBEY = True 改为 ROBOTSTXT_OBEY = False百度了一下:robots.txt是一...
复制链接

扫一扫

专栏目录