BeautifulSoup库
一.BeautifulSoup库的下载以及使用
1.下载
pip3 install beautifulsoup4
2.使用
improt bs4
二.BeautifulSoup库解析器
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
bs4的HTML解析器 | BeautifulSoup(mk,‘html.parser’) | Python 的内置标准库 |
执行速度适中
文档容错能力强 | Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 |
| lxml的HTML解析器 | BeautifulSoup(mk,‘lxml’) | 速度快
文档容错能力强 | 需要安装C语言库 |
| lxml的XML解析器 | BeautifulSoup(mk,‘xml’) | 速度快
唯一支持XML的解析器 | 需要安装C语言库 |
| html5lib解析器 | BeautifulSoup(mk,‘html5lib’) | 最好的容错性
以浏览器的方式解析文档
生成HTML5格式的文档 | 速度慢 |
条件 :
-
bs4的HTML解析器:安装bs4库
-
lxml的HTML解析器:pip3 install lxml
-
lxml的XML解析器:pip3 install lxml