-
Python
-
【概念】
-
BeautifulSoup可以从HTML或XML文件中提取数据,与解析器一起使用,提供导航,搜索和修改解析树的惯用方法
-
-
【解析器】
-
查看官方文档
-
-
【安装】
-
pip install bs4
-
pip install lxml
-
-
导入
-
from bs4 import BeautifulSoup
-
-
使用步骤
-
1. 创建BeautifulSoup对象
-
soup = BeautifulSoup(html_doc,'lxml')
-
html_doc:HTML文档字符串
-
HTML解析器
-
-
soup常用方法
-
soup.prettify()
-
按照标准的缩进格式结构输出
-
-
-
-
2.解析数据
-
标签
-
查看标签
-
soup.标签名
-
eg:tag = soup.title
-
-
注意:如果有多个相同的标签名,则会返回第一个
-
-
查看所有的某个标签
-
soup.find_all(标签名,属性)
-
soup.find_all("标签名")
-
eg:soup.find_all("a")
-
-
soup.find_all(attrs={“属性名”:“属性值”})
-
soup.find_all(属性=“属性值”)
-
-
查看标签内容
-
soup.标签名.string
-
eg:soup.title.string
-
-
tag.title
-
-
根据属性值找标签
-
soup.find(属性=“属性值”)
-
注意:如果属性为class时,需要写成class_="属性值"
-
-
上一节点标签名
-
soup.标签名.parent.name
-
-
-
属性
-
获取标签的单个属性
-
soup.标签名[‘属性名’]
-
eg:soup.p['class']
-
-
soup.标签名.get("属性名")
-
eg:soup.a.get("href")
-
-
-
获取标签的所有属性
-
tag.attrs
-
-
-
-
案例
-
官网文档中案例,解析本地HTML资源
-
-
-
内容遍历方法
-
下行遍历
-
.contents
-
.children
-
.descendants
-
-
上行遍历
-
.parent
-
.parents
-
-
平行遍历
-
.next_sibling
-
.previous_sibling
-
.next_siblings
-
.previous_siblings
-
-
案例
-
官网文档中案例,解析本地HTML资源
-
-
-
综合案例
-
爬取“猫眼电影”排行榜
-
爬取“最好大学网”排行
-
-
Python核心内容
PythonBeautifulSoup:HTML/XML数据解析与爬虫入门指南,

被折叠的 条评论
为什么被折叠?



