BeautifulSoup4用法
安装包:
pip install beautifulsoup4
导入包:
form bs4 import BeautifulSoup`
1. 基本用法
beautifulSoup得到的是一个 bsObj 我们可以在它的基础上进行获取我们需要的
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('')
bsObj = BeautifulSoup(html.read())
print(bsObj.h1) # 获取 h1 标签
获取 标签中的 class='green’的 span
span = bsObj.findAll('span', {'class': 'green'})
获取文本信息
span.get_text()
获取属性值
span.attrs.get('attr')
span.get('attr')
find() 和 findAll()
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)
2. BeautifulSoup的解析器
2.1 Python标准库
使用方法: BeautifulSoup(html_doc,“html.parser”)
优势:Python内置,执行速度适中,文档容错能力强 劣势:Python 2.7.3 or 3.2.2)前
的版本中文档容错能力差
2.2 lxml解析器(推荐使用)
使用方法:BeautifulSoup(html_doc,‘lxml’) 优势:速度快,文档容错能力强(C编写),推荐使用
2.3 html5lib
使用方法:BeautifulSoup(html_doc,“html5lib”)
优势:最好的容错性,已浏览器的方式解析文档,生成Html5格式的文档 劣势:速度慢,不依赖外部扩展