Python爬虫解析库的安装

最新推荐文章于 2022-07-14 07:00:00 发布

星河苑

最新推荐文章于 2022-07-14 07:00:00 发布

阅读量249

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_44741024/article/details/106889236

版权

1、lxml的安装
lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。

pip install lxml

2、Beautifu lSoup的安装
Beautifu lSoup是Python的一个HTML或XML的解析库。它拥有强大的API和多样的解析方式。

pip3 install beautiflsoup4

3、pyquery的安装
pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。

pip3 install pyquery

4、tesserocr的安装
在爬虫过程中，难免会遇到各种各样的验证码，而大多数验证码还是图形验证码，这时候我们可以直接用OCR来识别。
OCR，即Optical Character Recognition,光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则的字符，这些字符确实是由字符稍加扭曲变换得到的内容。
tesserocr是Python的一个 OCR识别库，但其实是对tesseract做的一层Python API封装，所以它的核心是tesserocr。因此，在安装tesserocr之前，我们需要先安装tesseract。
下载地址：
https://digi.bib.uni-mannheim.de/tesseract/
进入下载页面，可以看见有各种**.exe文件的下载列表，比如我们可以选择3.0版本。

文件名中带有dev的为开发版本，不带dev的为稳定版本，可以选择不带dev的版本，例如可以选择下载tesseract-ocr-setup-3.05.01.exe.**

下载完成后双击，会出现如下图所示的页面：
在这里插入图片描述
勾选Addition language data(download)选项来安装OCR识别支持的语言包，这样OCR便可以识别多国语言，然后一路点击Next按钮即可。

接下来，在安装tesserocr即可，此时直接用pip安装：

pip install tesserocr pillow

星河苑

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫解析库的安装

1、lxml的安装lxml是Python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高。pip install lxml2、Beautifu lSoup的安装Beautifu lSoup是Python的一个HTML或XML的解析库。它拥有强大的API和多样的解析方式。pip3 install beautiflsoup43、pyquery的安装pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器
复制链接

扫一扫