scrapy

Scrapy

多个spider对应不同的pipelines

给spider设置自己的custom_settings

下载的文件重命名

继承ImagesPipeline,重写file_path函数

csv文件按指定的顺序输出

参考

访问动态页面

方式1:重写中间件,采用无界面浏览器selenium,禁用原本的middleware
方式2:selenium最好放置在spider中,如果存在下载图片任务,如果selenium放置在middleware中,下载图片也会经过selenium,每下载一个图片会打开一个浏览器,效率低。

no module named ‘win32api’

$ pip install pypiwin32

访问中的所有文字内容

当中没有其他标签时,可以使用xpathData.xpath(‘./text()’).extract()提取

当中还有其他标签,使用xpathData.xpath(‘string(.)’).extract()提取

可以考虑使用preceding,参考

爬取天猫时提示登录

Selenium调用geckodriver启动火狐(或chrome),当遇到爬虫不好处理的情况时(登录或者输入验证码)采用人工输入的方式

driver = webdriver.Firefox(executable_path=r'C:\geckodriver.exe')
driver.get(request.url)
time.sleep(10)
driver.find_element_by_xpath('//*[@class="sn-container"]/p/a[1]').click()
print("please log in , and input message in search box ")
print("waiting...")
time.sleep(60)

启动火狐后,进入到登录界面,扫描二维码登录,在输入框中搜索需要检索的数据,再切换到需要的页面吗,爬虫开始工作。爬取完当前的页面,提示(人工)切换到下一个页面。

geckodriver是一个控制浏览器的工具

搭建cookies池

参考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值