Beautiful Soup之节点选择器
# 导包
from bs4 import BeautifulSoup
# 创建解析对象 第一个参数是要解析的目标,第二个参数是解析器
bs = BeautifulSoup('<p>chenjiahe</p>', 'lxml')
print(bs.p.string)
prettify()方法可以把要解析的字符串以标准的缩进格式输出。
bs.p.string这是输出HTML中p节点的文本内容。
2.1 节点选择器
直接调用节点的名称就可以选择节点元素,再调用string属性就可以获取节点内的文本了。
选择元素
from bs4 import BeautifulSoup
# 创建解析对象 第一个参数是要解析的目标,第二个参数是解析器
bs = BeautifulSoup('<p>chenjiahe</p>', 'lxml')
print(bs.p.string)
- 提取信息
(1)获取名称
print(bs.title.name)
# 输出为title
(2)获取属性
每个节点都可能有多个属性,选择这个节点元素后,可以调用attrs获取所有属性。其返回结果是字典形式。
# 假如<p>节点中包含了class='title'、name='chen'的属性
print(bs.p.attrs)
# 输出为{'class': ['title'], 'name': 'chen'}
print(bs.p.attrs['name'])
# 输出为 chen
print(bs.p.['name'])
# 输出为 chen
(3)获取内容
string属性用来获取节点元素包含的文本内容。
bs.p.string
- 嵌套选择
例如:获取了head节点元素,可以继续调用head来选取其内部的head节点元素。
关联选择
在选择节点时,有时间不能一步就选到想要的节点元素,需要先选中某一节点元素,然后以它为基准再选择它的子节点,父节点、兄弟节点等。
①子节点和子孙节点
选取节点元素之后,调用contents可以获取它的直接子节点。(返回类型是列表类型)
from bs4 import BeautifulSoup
html = '''
# 假设里面有内容
'''
bs_html = BeautifulSoup(html, 'lxml')
print(bs_html.div.contents)
也可以使用children属性得到相应的结果。(返回类型是生成器类型)
使用children后,需要使用for循环遍历才能输出相应的内容:
from bs4 import BeautifulSoup
html = '''
# 假设里面有内容
'''
bs_html = BeautifulSoup(html, 'lxml')
print(bs_html.div.children)
for i, child in enumerate(bs_html.div.children):
print(i, child)
想要得到子孙节点时,可以调用descendants属性,descendants会递归查询所有子节点,得到所有的子孙节点。
其返回结果依然是生成器类型,需要遍历输出。
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。
from bs4 import BeautifulSoup
html = '''
# 假设里面有内容
'''
bs_html = BeautifulSoup(html, 'lxml')
print(bs_html.div.descendants)
for child in enumerate(bs_html.div.descendants):
print(child)
②父节点和祖先节点
若想获取某个节点元素的父节点,可调用parent属性。(这里获取的仅仅是某个节点的直接父节点)
如果想要获取所有的祖先节点,可调用parents。
html = '''
<html>
<body>
<p class="story">
<a href="http://example.com/elsie" class="sister" id="link1">
<span>Elsie</span>
</a>
</p>
'''
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.a.parents)
print(list(enumerate(soup.a.parents)))
③兄弟节点
next_sibling: 获取当前节点的下一个兄弟元素。
pervious_sibling: 获取当前节点的上一个兄弟元素。
next_siblings: 获取当前节点的后面的兄弟元素。
pervious_siblings: 获取当前节点的前面的兄弟元素。
④提取信息
如果返回结果是单个几点,那么可以直接使用string、attrs等属性来获取其文本和属性;如果返回结果是多个节点的生成器,则需要转为列表后取出某个元素,然后再调用string、attrs获取其文本和属性。