1.lxml安装
lxm 是Python 一个解 支持 HTML XML 解析,支持 XPath 解析方式,而且解析效率非常高 。
我的python是3.9的
pip install lxml
利用命令去安装,我这里显示已经安装了,符合要求
2.Beautiful Soup 的安装
pip3 install beauti fulsoup4
利用命令安装,我已经安装了,就没有截图了。
3.pyquery 的安装
pyquery同 样是 个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析 HTML 文档,支持css 选择器。
pip install pyquery
4.tesserocr 的安装
在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们
以直接用 OCR 来识别。
进入官网,下载.exe文件。
下载的有点慢
先等等,下载数据库了。