【冰糖Python】爬虫 - 从入门到入门：bs4库

最新推荐文章于 2023-04-18 01:00:00 发布

冰糖不在家

最新推荐文章于 2023-04-18 01:00:00 发布

阅读量261

点赞数

分类专栏： Python 文章标签： BeautifulSoup 爬虫 Python

本文链接：https://blog.csdn.net/xiaoxiao_ziteng/article/details/107938904

版权

BeautifulSoup是一个可以从HTML或XML文档中提取数据的Python库，可用于解析HTML、HTML5、XML类型的文件（默认作为HTML文档），目前使用的BeautifulSoup4版本集成在bs4库中，因此使用前需要安装bs4。在我们使用Requests提取到网页数据后，便可以使用该库对网页数据进行解析，从而获得所需内容，文后给出具体实例。（一）BeautifulSoup 解析器BeautifulSoup支持Python标准库中的HTML解析器，还提供了第三方的解析器，比如XM

摘要由CSDN通过智能技术生成

BeautifulSoup是一个可以从HTML或XML文档中提取数据的Python库，可用于解析HTML、HTML5、XML类型的文件（默认作为HTML文档），目前使用的BeautifulSoup4版本集成在bs4库中，因此使用前需要安装bs4。

在我们使用Requests提取到网页数据后，便可以使用该库对网页数据进行解析，从而获得所需内容，文后给出具体实例。

（一）BeautifulSoup 解析器

BeautifulSoup支持Python标准库中的HTML解析器，还提供了第三方的解析器，比如XML解析器等。如果需要解析文档但是未指定解析器时，BeautifulSoup会在当前库中安装的解析器中自动选择一个，可以像下面方式手动指定一种解析器。使用html解析器将得到html风格的结果，使用xml解析器将得到xml风格的结果。同一篇文档使用不同的解析器可能会得到不同的结果，尤其是文档结构不够标准的时候。无论HTML和XML文档编码是什么，BeautifulSoup解析后都是Unicode编码。

假设需要解析的内容为html_obj（可为字符串或文件句柄）

soup = BeautifulSoup(html_obj, 'html.parser')
soup = BeautifulSoup(html_obj, 'lxml')
soup = BeautifulSoup(html_obj, 'xml')
soup = BeautifulSoup(html_obj, 'html5lib')

soup为创建的BeautifulSoup对象，是由HTML文档转换得到的结点为Python对象的树形结构，包含文档全部内容。注意：如果要使用lxml、html5lib需要安装对应的库。

（二）BeautifulSoup 对象类型

（1）文档树 BeautifulSoup：包含文档的全部内容

（2）标签 Tag：与HTML和XML中的Tag类型相同，包含name、attrs等属性（BeautifulSoup对象有时可看作Tag）

（3）可遍历字符串 NavigableString：文档树中的字符串，即Tag内的文本内容，对应于Python的unicode字符串

（4）注释 Comment：文档树中的注释及特殊字符串

（三）BeautifulSoup() 参数

（1）markup = ''：需要解析的字符串或文件形式对象

（2）features = None：需要使用的解析器，'html.parser'，'lxml'，'xml'，'html5lib'

（3）builder = None：指定自定义的树形结构生成器

（4）parse_only = None：指定SoupStrainer对象，详见第（五）

最低0.47元/天解锁文章

冰糖不在家

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【冰糖Python】爬虫 - 从入门到入门：bs4库

BeautifulSoup是一个可以从HTML或XML文档中提取数据的Python库，可用于解析HTML、HTML5、XML类型的文件（默认作为HTML文档），目前使用的BeautifulSoup4版本集成在bs4库中，因此使用前需要安装bs4。在我们使用Requests提取到网页数据后，便可以使用该库对网页数据进行解析，从而获得所需内容，文后给出具体实例。（一）BeautifulSoup 解析器BeautifulSoup支持Python标准库中的HTML解析器，还提供了第三方的解析器，比如XM
复制链接

扫一扫