Beautiful Soup库详解

最新推荐文章于 2023-10-31 10:27:55 发布

代码无常

最新推荐文章于 2023-10-31 10:27:55 发布

阅读量438

点赞数

文章标签：列表 python xml dom xpath

庄立成

本文链接：https://blog.csdn.net/zhuanglicheng/article/details/109200733

版权

前言：

BeautifulSoup 是第三方库，灵活又方便的网页解析库，处理高效，支持多种解析器，需要安装：pip install BeautifulSoup4；使用时还需要对应的解析器，如果没有必须安装。

导模块：from bs4 import BeautifulSoup

一、解析库

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup,‘html.parser’)	Python的内置标准库、执行速度适中、文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文容错能力差
lxml HTML 解析器	BeautifulSoup(markup,’lxml’)	速度快、文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ‘xml’)	速度快、唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup,‘html5lib’)	最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档	速度慢、不依赖外部扩展