scrapy可以成功运行，但不能返回要爬取的文字内容

最新推荐文章于 2022-11-19 17:05:43 发布

我不熬夜yeah

最新推荐文章于 2022-11-19 17:05:43 发布

阅读量7.7k

点赞数 2

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/zhang_gy2333/article/details/78539760

版权

爬虫专栏收录该内容

14 篇文章

订阅专栏

本文介绍了Scrapy爬虫框架中settings.py文件的ROBOTSTXT_OBEY配置项的作用及使用方法。详细解释了robots.txt文件的概念及其如何影响爬虫的行为，并探讨了何时应当禁用对Robot协议的遵守。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

settings.py下的

        ROBOTSTXT_OBEY = False

需要爬取出内容时等号后应为False.
默认为True，就是要遵守robots.txt 的规则，那么 robots.txt 是什么？
robots.txt 是遵循 Robot协议 的一个文件，它保存在网站的服务器中，
它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页 不希望 你进行爬取收录。
在Scrapy启动后，会在第一时间访问网站的 robots.txt 文件，然后决定该网站的爬取范围。
当然，我们并不是在做搜索引擎，而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。
所以，某些时候，我们就要将此配置项设置为 False ，拒绝遵守 Robot协议 ！