BeautifulSoup4
- 什么是beautiful soup :
是python的一个HTML或XML的解析库,可以用它来方便的从网页中提取数据 - bs4在解析时所依赖的解析器:
1,Python标准库 BeautifulSoup(markup,‘html.parser’) Python内置标准库,执行速度适中,容错能力强
2,lxml HTML解析器 BeautifulSoup(markup,‘lxml’) 速度快,文档容错能力强 - 使用:
初始化:
soup=BeautifulSoup(response,'lxml) - 里面的findall()方法:
参数 | 使用介绍 |
---|---|
name | 可以根据节点查询 |
attrs | 可以根据节点属性查询 |
text | 可以用来匹配节点文本 |
pyquery
- pyquery介绍:
pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析HTML文档,易用性和解析速度都很好
需要先导入插件:pip3 install pyquery
- 使用:
先用 pq = PyQuery(response)获取响应
有两种方法定位节点:
#这是示列
#第一种
ranks = pq.find('div.scores_List dl')
#第二种
ranks = pq.find('div').filter('.scores_List').find('dl')
- 里面的方法:
方法 | 介绍 |
---|---|
.find | 查找嵌套元素 |
.filter(selector) | 根据class,id筛选指定元素 |
.eq(index) | 根据索引号获取指定元素从0开始 |
.text() | 获取标签的文本 |
.attr() | 获取标签属性 |