如何在scrapy中添加随机的userAgent

最新推荐文章于 2024-08-26 08:48:28 发布

zhoulin753

最新推荐文章于 2024-08-26 08:48:28 发布

阅读量1.2k

点赞数

分类专栏： scrapy 文章标签： spider

本文链接：https://blog.csdn.net/zhoulin753/article/details/83653703

版权

scrapy 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在scrapy中运行顺序是这样的（如下图）：

由上图我们可以看出我们的request的请求，产生和发送请求之前的位置可以进行处理我们的request请求，也就是在这些地方可以进行userAgent的添加（有如下三个方法）：

1.在spider.py文件中进行添加：

第一步：

#这里就举两个例子，可以在百度里搜索大量的user_agent,放到这个列表中，这个变量我们写在setting文件中即可
user_agent_list = [
                'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like             
                 Gecko) Chrome/70.0.3538.77 Safari/537.36',
                'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201',
                  
                ]

第二步：

#在我们的spider.py文件中写上自己的headers
#要导入我们的刚刚设置的user_agent_list
import scrapy
from scrapy.loader import ItemLoader
from settings import user_agent_list

#这里我们就用爬去知乎为例
class ZhihuSpider(scrapy.Spider):
    name = 'zhihu'
    allowed_domains = ['www.zhihu.com']
    start_urls = ['https://www.zhihu.com/']
    
    #question的第一页answer的请求url
    start_answer_url = 'https://www.zhihu.com/api/v4/questions/{0}/answer......'

    headers = {
            'HOST':'www.zhihu.com',
            'Referer':'https://www.zhihu.com',
            'User-Agent':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E) QQBrowser/6.9.11079.201',
}
    def parse(self, response):
        all_urls = response.css('a::attr(href)').extract()
        all_urls = [parse.urljoin(response.url.url) for url in all_urls]
        all_urls = filter(lambda x:True if x.startswith('https') else False)
        for url i all_urls:
            match_obj = re.math('(.*zhihu.com/question/(\d+))(/|$).*', url)
            if match_obj:
                request_url = match_obj.group(1)
                #从这里开始添加我们的useragent就可以啦！
                import random
                self.headers['User-Agent']=random.choice(user_agent_list)

                yield scrapy.Request(request_url,headers=self.headers,callback=self.question)
            else:
                yield 
    def question(self,response):
        pass

这就是第一种方法，是所有所有方法中最简单的，从原头解决问题，但是这种方法有问题的，这个世界本来就是矛盾的，鱼和熊掌不可兼得！由于粒度比较小出现问题如下：

1.当我spider文件中有多个request发送请求时，都要加上这几行代码，会出现代码的冗余，这种问题是可耻的。

2.当我想要爬取微博的时候，那么这里的useragent还要重新写，那么耦合性就比较高。

2.在中间件中添加我们想要UserAgent代码（这种是比较合理，推荐）

从scrapy的运行图片中我们可以看出，有两个地方我们是有中间件的，那么我们可以添加自己的中间件来处理我们的request请求中的useragent，这种方法的粒度较大，是全局的，所有的request请求都会处理，这个就相当与我们在传递request的过程中来改变他！由于spidermiddleware与downloadmiddleware有很多相似的地方，那么我们这里只介绍downloadmiddleware的处理!

其实在我们的scrapy中，他帮我们做了非常多的事情，有很多事情已经帮我们想到了！我们先打开scrapy中的原代码部分！