scrapy中User-Agent在中间件，settings，Request中设置的顺序问题

最新推荐文章于 2024-04-17 13:54:10 发布

wsh_0703

最新推荐文章于 2024-04-17 13:54:10 发布

阅读量475

点赞数

分类专栏：配置

配置专栏收录该内容

15 篇文章 0 订阅

订阅专栏

这里的user_agent适用于整个项目，如果需要单独对某些请求单独设置User-Agent，就需要在中间件或Request中设置headers
scrapy.Request() 中设置的headers和中间件中的headers是同一个headers

class RandomUserAgent(object):
    def process_request(self, request, spider):
        # 第一种方式
        request.headers.setdefault("User-Agent", 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Mobile Safari/537.36')
        # 第二种方式
        # request.headers["User-Agent"] = 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Mobile Safari/537.36'

如果在scrapy.Request()中设置了headers参数，中间件中使用setdefault，则不会修改原有的user-agent；如果使用第二种方式，则会修改原有的user-agent，实质就是对字典中的键值对进行修改
先由scrapy.Request()构造了请求，下一步是经过中间件，因此在中间件中可以对配置进行修改。