Python每日一记71>>>Python +Selenium+chrome模拟浏览器爬虫实践

一直以来,感叹python的强大,这一次又被其折服啦;在学习到模拟浏览器的爬虫时,方法更加简单啦。
之前我们的爬虫程序大多是基于解析库进行爬虫,并且,我们在遇到复杂的网站时,需要自己进行很多的分析,才能找到网站的每一页的规律,特别是对于异步加载的网页,我们需要花较多的时间去构造网页每一页的链接等,另外,我们有些需要表单登陆的网站的爬虫就更加复杂了。
现在呢,因为有了Python +Selenium+chrome模拟浏览器爬虫方法,我们不需要太多的解析,太多的去寻找网站规律就能进行爬虫,这对于复杂的网站爬虫无疑是非常有用的。
首先我们学习一下Python +Selenium+chrome模拟浏览器爬虫的前期准备:
我们需要安装selenium库,当然我们也需要下载谷歌浏览器并且配置网页
在这里插入图片描述
我们还需要下载对应的浏览器驱动(版本需要对应,自行去查看浏览器的版本),此处选择 Chrome。下载地址:http://npm.taobao.org/mirrors/chromedriver/ ,下载完毕后,我们需要将其复制粘贴到pathon所在的路径内:
在这里插入图片描述
具体的基础知识可参考以下链接:
基础准备:
https://www.cnblogs.com/eternal1025/p/8880245.html

常用方法函数:
https://www.cnblogs.com/NancyRM/p/8243821.html

接下来实验爬取成都地区小猪短租的房价:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以上只需要注意多个元素是elements,单个元素是element,另外自己要进行检查和适当修改路径,比如房价xpath最初复制下来是
//[@id=“page_list”]/ul/li[1]/div[2]/div[1]/span/i,,,但是我们多看几个,发现变化的地方只有li[**],因为我们要爬取所有的价格,就需要修改为//[@id=“page_list”]/ul/li/div[2]/div[1]/span/i,,,这样就行了。因此还是需要一点一点基础的。
当然我们还有其他方法可以选择,这就依据个人喜好了。
总之Python +Selenium+chrome模拟浏览器爬虫就是模拟浏览器的行为进行操作,不需要构建大量的代码,也不需要太多的解析,就能获得数据,也是很方便的,但是遗憾的Selenium支持的浏览器很少,然后PhantomJS已经无法再使用了,因此谷歌浏览器就成为了最佳的配置选择。
在这里插入图片描述
这只是简单的实验,还有更多模拟浏览器的爬虫操作后续慢慢学习,特别是复杂网站,如异步加载,表单登陆等。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值