Beautiful Soup库详解
前言:
帮助文档地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
BeautifulSoup 是第三方库,灵活又方便的网页解析库,处理高效,支持多种解析器,需要安装:pip install BeautifulSoup4;使用时还需要对应的解析器,如果没有必须安装。
导模块:from bs4 import BeautifulSoup
一、解析库
解析器 | 使用方法 | 优势 | 劣势 |
---|---|---|---|
Python标准库 | BeautifulSoup(markup,‘html.parser’) | Python的内置标准库、执行速度适中 、文档容错能力强 | Python 2.7.3 or 3.2.2)前的版本中文容错能力差 |
lxml HTML 解析器 | BeautifulSoup(markup,’lxml’) | 速度快、文档容错能力强 | 需要安装C语言库 |
lxml XML 解析器 | BeautifulSoup(markup, ‘xml’) | 速度快、唯一支持XML的解析器 | 需要安装C语言库 |
html5lib | BeautifulSoup(markup,‘html5lib’) | 最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档 | 速度慢、不依赖外部扩展 |
二、基本使用:带自动补全html标签
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dormouse"><b>The Dormouse's story</b></p>
<p class="story">On