Scrapy设置User-Agent随机代理

本文介绍了如何在Scrapy中利用fake-useragent库设置User-Agent的随机代理,以避免因网站识别爬虫导致的访问限制。通过安装fake-useragent,创建RandomUserAgentMiddleware中间件,并在settings中配置,可以在每个请求中动态改变User-Agent。
摘要由CSDN通过智能技术生成

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

一些网站常常通过判断 UA 来给不同的操作系统、不同的浏览器发送不同的页面,因此可能造成某些爬虫被网站禁止,但通过伪装 UA 可以绕过检测。

常见的User-Agent形式如:

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36

本文解决的是Scrapy设置随机用户代理池的方法,使用到的是fake-useragent


  1. 安装fake-useragent
    pip install fake-useragent

  2. 在Scrapy中建立一个RandomUserAgentMiddlware:

    from fake_useragent import UserAgent
    class RandomUserAgentMiddlware(object):
        # 随机更换user-agent
        def __init__(self, crawler):
            super(RandomUserAgentMiddlware, self).__init__()
            self.ua = UserAgent()
            self.ua_type 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值