Scrapy: 爬虫返回403错误

最新推荐文章于 2024-04-25 13:44:47 发布

xudailong_blog

最新推荐文章于 2024-04-25 13:44:47 发布

阅读量2.8k

点赞数

分类专栏： python_bugs 文章标签：爬虫调试技术数据

本文链接：https://blog.csdn.net/xudailong_blog/article/details/77075519

版权

22 篇文章 0 订阅

订阅专栏

问题
抓取数据时，通常调试信息是：

DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)

如果出现


DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None)

表示网站采用了防爬技术anti-web-crawling technique（Amazon所用），比较简单即会检查用户代理（User Agent）信息。

解决方法
在请求头部构造一个User Agent，如下所示：

def start_requests(self):  
    yield Request("http://www.techbrood.com/",  
                  headers={'User-Agent': "your agent string"})

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注