网页技术三个形式/阶段:
- 完全静态网页(只展示信息,包括图片,文字,视频等)
- 交互式网页(具备一定交互功能)
- 异步执行(以Ajax等异步技术实分批加载信息)
普通爬虫代码的问题:
- 爬虫的思路是模拟浏览器访问
- 细节模仿不到位
- JavaScript很难被Python执行
自动化测试软件
- 前端页面自动化测试工具,让人们利用自动化测试软件(模块/框架),用编程语言编写程序按固定流程执行动作,控制浏览器的运行
- selenium:老牌前端自动化测试工具,资料齐全,技术成熟全面
- 官网:https://www.selenium.dev/
- pyppeteer:JavaScript框架,有python版本更新较慢
- PlayWright:微软2021年出品,异步框架
Selenium工作流程
- 我们用python脚本控制selenium驱动器
- selenium驱动器操作浏览器(具体哪个浏览器需要指定)
- 浏览器访问网址后打开网页
- python脚本通过selenium驱动器从浏览器中提取结果
Selenium环境搭建
- 安装selenium的Python模块
pip install selenium
- 安装指定版本的webdriver
- 查看对应浏览器和版本(通常是Chrome或Firefox)
- https://npm.taobao.org/mirrors下载对版本的驱动
- 解压后放入指定文件夹即可