Python每日一记71>>>Python +Selenium+chrome模拟浏览器爬虫实践

最新推荐文章于 2024-04-11 16:58:07 发布

教练我想学编程

最新推荐文章于 2024-04-11 16:58:07 发布

阅读量964

点赞数

本文链接：https://blog.csdn.net/weixin_44663675/article/details/91347386

版权

一直以来，感叹python的强大，这一次又被其折服啦；在学习到模拟浏览器的爬虫时，方法更加简单啦。
之前我们的爬虫程序大多是基于解析库进行爬虫，并且，我们在遇到复杂的网站时，需要自己进行很多的分析，才能找到网站的每一页的规律，特别是对于异步加载的网页，我们需要花较多的时间去构造网页每一页的链接等，另外，我们有些需要表单登陆的网站的爬虫就更加复杂了。
现在呢，因为有了Python +Selenium+chrome模拟浏览器爬虫方法，我们不需要太多的解析，太多的去寻找网站规律就能进行爬虫，这对于复杂的网站爬虫无疑是非常有用的。
首先我们学习一下Python +Selenium+chrome模拟浏览器爬虫的前期准备：
我们需要安装selenium库，当然我们也需要下载谷歌浏览器并且配置网页
在这里插入图片描述
我们还需要下载对应的浏览器驱动（版本需要对应，自行去查看浏览器的版本），此处选择 Chrome。下载地址：http://npm.taobao.org/mirrors/chromedriver/ ，下载完毕后，我们需要将其复制粘贴到pathon所在的路径内：
在这里插入图片描述
具体的基础知识可参考以下链接：
基础准备：
https://www.cnblogs.com/eternal1025/p/8880245.html

常用方法函数：
https://www.cnblogs.com/NancyRM/p/8243821.html

接下来实验爬取成都地区小猪短租的房价：
在这里插入图片描述

以上只需要注意多个元素是elements,单个元素是element，另外自己要进行检查和适当修改路径，比如房价xpath最初复制下来是
//[@id=“page_list”]/ul/li[1]/div[2]/div[1]/span/i，，，但是我们多看几个，发现变化的地方只有li[**]，因为我们要爬取所有的价格，就需要修改为//[@id=“page_list”]/ul/li/div[2]/div[1]/span/i，，，这样就行了。因此还是需要一点一点基础的。
当然我们还有其他方法可以选择，这就依据个人喜好了。
总之Python +Selenium+chrome模拟浏览器爬虫就是模拟浏览器的行为进行操作，不需要构建大量的代码，也不需要太多的解析，就能获得数据，也是很方便的，但是遗憾的Selenium支持的浏览器很少，然后PhantomJS已经无法再使用了，因此谷歌浏览器就成为了最佳的配置选择。
在这里插入图片描述
这只是简单的实验，还有更多模拟浏览器的爬虫操作后续慢慢学习，特别是复杂网站，如异步加载，表单登陆等。

教练我想学编程

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python每日一记71>>>Python +Selenium+chrome模拟浏览器爬虫实践

一直以来，感叹python的强大，这一次又被其折服啦；在学习到模拟浏览器的爬虫时，方法更加简单啦。之前我们的爬虫程序大多是基于解析库进行爬虫，并且，我们在遇到复杂的网站时，需要自己进行很多的分析，才能找到网站的每一页的规律，特别是对于异步加载的网页，我们需要花较多的时间去构造网页每一页的链接等，另外，我们有些需要表单登陆的网站的爬虫就更加复杂了。现在呢，因为有了Python +Selenium...
复制链接

扫一扫