淘宝商品信息爬虫

scrapy+selenium淘宝商品信息爬虫

   淘宝的爬虫检测机制会强制返回login界面内容。想在这里加上cookies绕过这个机制。
   于是搞了这个爬虫,这里记录一下。	实现方法是用selenium自动登录get_cookies,然后request中携带上。
   用scrapy框架比较方便,可以在setting中携带上cookies。

1 爬虫页tm_get

import scrapy,re,time
from selenium import webdriver
from tm_get.items import TmGetItem
#tm_get是文件名,调用item的Tmgetitem类;这里某些工具(比如pycharm)可能会红字报错,实际上不影响运行



#第一步:定义一个登录指定页面自动输入账号密码,执行登录和搜索商品,并抓取cookies的函数

def get_cookies(item):
	browser = webdriver.Chrome(executable_path='C://Program Files/Google/Chrome/Application/chromedriver.exe')
	browser.maximize_window()
	browser.get('https://login.taobao.com/member/login.jhtml?')
	browser.implicitly_wait(1)#隐式等待和sleep都是为了findbyxpath执行时页面已经加载好了,不然偶尔会报错
	browser.find_element_by_xpath('//*[@id="fm-login-id"]').send_keys(account)#账号密码匿了
	browser.find_element_by_xpath('//*[@id="fm-login-password"]').send_keys(password)
	browser.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()			                
	time.sleep(2)
	browser.find_element_by_xpath<
  • 7
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值