各种各样的网站在我们日常工作和学习中占据着举足轻重的地位,学习、影音娱乐、查询资料、协同办公,越来越多的任务都被迁移到浏览器
因此,网页也蕴含着很多有价值、我们能够用得到的资源
例如,数据、歌曲、影视、文本、图片;所以,这几年来爬虫这项技术也成了很多开发人员必备的技能之一
以 Python 爬虫为例,比较常用的爬虫手段是结合 Requests、正则表达式等有一定门槛的工具来完成,并且还需要对 HTML、Web 具有一定的基础
这把很多开发同学拒之门外,也让很多初学者花费很多功夫和时间来学习爬虫这些技能
其实,除了上述提到那些具有一定门槛的爬虫知识之外,有一些另辟蹊径的同学会选择 Selenium 这款 Web 应用测试工具来完成爬虫任务,它能够像真正的用户一样完成一系列的操作
Selenium 已经很好用,但是,它的大多数交互还是和 Web 元素之间进行的,需要使用到 HTML id、Xpath、CSS 选择器,虽然自动化程度高了一些,但是还不算足够的容易使用。
而本文的主角 Helium 则是在 Selenium 的基础上封装的更加高级的 Web 自动化工具,它能够通过网页端可见的 标签 、 名称 来和 Web 进行交互,例如,
- 点击键盘按键
- 右键点击
- 悬浮
- 滚动鼠标
- 拖动文件
- 刷新
- ......
通过 Helium ,即便不在了解 Html、CSS 这些知识,你依然可以轻松的完成 Web