scrapy淘宝爬虫(通过模拟登录获取cookie)获取价格信息评论

本文介绍了一个使用Python的selenium库模拟登录淘宝并获取商品价格、评论的爬虫项目。通过微博登录淘宝,获取cookie后,利用cookie进行页面访问。详细讲述了登录过程中的注意事项,包括定位元素的选择、验证码识别、处理网络延迟以及防止封号策略。但文中并未给出完整的爬虫代码和提取cookie的方法。
摘要由CSDN通过智能技术生成
项目要求:爬取淘宝某领域下的商品名称,价格,评论。
(我贼怂,如果阿里巴巴的朋友发现,请联系我,我立刻删帖,谢谢。)

一、构思流程

模拟登陆
获取cookie
scrapy爬取数据

二、分步分析

(一)、测试cookie是否能够满足我们爬取相应数据的要求

(确定了cookie能满足我们的需求,才能确保项目的可行性)
1、安装scrapy框架(直接pip安装就行)

pip install scrapy

2、创立项目对应爬虫

>cd 相应目录
相应目录>scrapy startproject taobao
相应目录>cd taobao2
相应目录\taobao>scrapy genspider nanzhuang taobao.com

3、修改爬虫文件,使用cookie进入搜索页面
在知道项目目标之后查找元素
淘宝男装主界面
其中蓝色框中的各个小项就是我们的目标。
我们手动点开这些小项后却发现需要登陆(未登录状态)
接着手动登录,登录后刷新获取网页的cookie.
在这里插入图片描述
获取cookie后将其写入爬虫的setting文件中
在这里插入图片描述在这里插入图片描述
然后尝试修改nanzhuang.py进行爬取

import scrapy

class XuexiSpider(scrapy.Spider):
    name = 'xuexi'
    allowed_domains = ['taobao.com']
    start_urls = ['https://www.taobao.com/markets/nanzhuang/2017new']

    def parse(self, response):
        for it in response.xpath('//*[@id="sm-nav-2014"]/div[2]/div[2]/div/div[2]/dl'):
        #使用xpath+for循环的模式遍历所有小项
            for n in it.xpath('./dd'):
                try:
                    li = n.xpath('./a/@href').extract()[0]
                    yield scrapy.Request(li,callback = self.parse_detail)
                    #将获取到的网址返回进行访问和解析
                except:
                    pass
	def parse_detail(self,response):
    	pass

运行一次爬虫试试

爬虫文件夹目录>scrapy crawl nanzhuang

如果结果为以下,说明你的cookie能让爬虫爬取相应页面

  • 4
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值