web自动化 -- pyppeteer

糯米不开花ぴ

已于 2024-02-15 11:09:21 修改

阅读量1.5k

点赞数 18

分类专栏： python爬虫文章标签：自动化

于 2023-11-30 23:10:36 首次发布

本文链接：https://blog.csdn.net/weixin_54104072/article/details/134626421

版权

由于Selenium流行已久，现在稍微有点反爬的网站都会对selenium和webdriver进行识别，网站只需要在前端js添加一下判断脚本，很容易就可以判断出是真人访问还是webdriver。虽然也可以通过中间代理的方式进行js注入屏蔽webdriver检测，但是webdriver对浏览器的模拟操作（输入、点击等等）都会留下webdriver的标记，同样会被识别出来，要绕过这种检测，只有重新编译webdriver，麻烦自不必说，难度不是一般大。

pyppeteer简介

由于Selenium具有这些严重的缺点。pyperteer成为了爬虫界的又一新星。

相比于selenium具有以下特点：

异步加载

速度快

具备有界面/无界面模式

伪装性更强不易被识别为机器人

同时可以伪装手机平板等终端

------------------->>>>

虽然支持的浏览器比较单一，但在安装配置的便利性和运行效率方面都要远胜selenium。

pyppeteer无疑为防爬墙撕开了一道大口子，针对selenium的淘宝、美团、文书网等网站，目前可通过该库使用selenium的思路继续突破，毫不费劲。

Pyppeteer是一个基于Python的浏览器自动化库，它使用了Puppeteer（谷歌开发的Node.js工具）的思路，通过JavaScript代码操纵Chrome浏览器完成数据爬取和Web程序自动测试等任务。Pyppeteer使用Python异步协程库asyncio，可以整合Scrapy进行分布式爬虫。

在Pyppeteer中，实际上背后有一个类似Chrome浏览器的Chromium浏览器在执行一些动作进行网页渲染。Chromium是谷歌为了研发Chrome而启动的项目，是完全开源的。二者基于相同的源代码构建，功能上基本没有太大区别。

总之，Pyppeteer依赖于Chromium这个浏览器来运行的。

pyppeteer安装及配置

由于 Pyppeteer 采用了 Python 的 async 机制，所以其运行要求的 Python 版本为 3.5 及以上。

第一步：在python中安装pyppeteer第三库

安装方式很简单，命令行 pip 安装即可。

pip3 install pyppeteer

或者直接在IDE中进行安装：

第二步&

最低0.47元/天解锁文章

糯米不开花ぴ

关注

18
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
web自动化 -- pyppeteer

由于Selenium具有这些严重的缺点。pyperteer成为了爬虫界的又一新星。相比于selenium具有以下特点：异步加载速度快具备有界面/无界面模式伪装性更强不易被识别为机器人同时可以伪装手机平板等终端虽然支持的浏览器比较单一，但在安装配置的便利性和运行效率方面都要远胜selenium。pyppeteer无疑为防爬墙撕开了一道大口子，针对selenium的淘宝、美团、文书网等网站，目前可通过该库使用selenium的思路继续突破，毫不费劲。
复制链接

扫一扫