Beautiful Soup之节点选择器

Beautiful Soup之节点选择器

# 导包
from bs4 import BeautifulSoup
# 创建解析对象   第一个参数是要解析的目标,第二个参数是解析器
bs = BeautifulSoup('<p>chenjiahe</p>', 'lxml')
print(bs.p.string)

prettify()方法可以把要解析的字符串以标准的缩进格式输出。
bs.p.string这是输出HTML中p节点的文本内容。

2.1 节点选择器
直接调用节点的名称就可以选择节点元素,再调用string属性就可以获取节点内的文本了。
选择元素

from bs4 import BeautifulSoup
# 创建解析对象   第一个参数是要解析的目标,第二个参数是解析器
bs = BeautifulSoup('<p>chenjiahe</p>', 'lxml')
print(bs.p.string)

- 提取信息

(1)获取名称

print(bs.title.name)
# 输出为title

(2)获取属性
每个节点都可能有多个属性,选择这个节点元素后,可以调用attrs获取所有属性。其返回结果是字典形式。

# 假如<p>节点中包含了class='title'、name='chen'的属性
print(bs.p.attrs)
# 输出为{'class': ['title'], 'name': 'chen'}
print(bs.p.attrs['name'])
# 输出为 chen
print(bs.p.['name'])
# 输出为 chen

(3)获取内容
string属性用来获取节点元素包含的文本内容。
bs.p.string

- 嵌套选择

例如:获取了head节点元素,可以继续调用head来选取其内部的head节点元素。
关联选择
在选择节点时,有时间不能一步就选到想要的节点元素,需要先选中某一节点元素,然后以它为基准再选择它的子节点,父节点、兄弟节点等。
①子节点和子孙节点
选取节点元素之后,调用contents可以获取它的直接子节点。(返回类型是列表类型)

from bs4 import BeautifulSoup
html = '''
# 假设里面有内容
'''
bs_html = BeautifulSoup(html, 'lxml')
print(bs_html.div.contents)

也可以使用children属性得到相应的结果。(返回类型是生成器类型)
使用children后,需要使用for循环遍历才能输出相应的内容:

from bs4 import BeautifulSoup
html = '''
# 假设里面有内容
'''
bs_html = BeautifulSoup(html, 'lxml')
print(bs_html.div.children)
for i, child in enumerate(bs_html.div.children):
    print(i, child)

想要得到子孙节点时,可以调用descendants属性,descendants会递归查询所有子节点,得到所有的子孙节点。
其返回结果依然是生成器类型,需要遍历输出。
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。

from bs4 import BeautifulSoup
html = '''
# 假设里面有内容
'''
bs_html = BeautifulSoup(html, 'lxml')
print(bs_html.div.descendants)
for child in enumerate(bs_html.div.descendants):
    print(child)

②父节点和祖先节点
若想获取某个节点元素的父节点,可调用parent属性。(这里获取的仅仅是某个节点的直接父节点)
如果想要获取所有的祖先节点,可调用parents。

html = '''
<html>
<body>
<p class="story">
<a href="http://example.com/elsie" class="sister" id="link1">
<span>Elsie</span>
</a>
</p>
'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'lxml')
print(soup.a.parents)
print(list(enumerate(soup.a.parents)))

③兄弟节点
next_sibling: 获取当前节点的下一个兄弟元素。
pervious_sibling: 获取当前节点的上一个兄弟元素。
next_siblings: 获取当前节点的后面的兄弟元素。
pervious_siblings: 获取当前节点的前面的兄弟元素。

④提取信息
如果返回结果是单个几点,那么可以直接使用string、attrs等属性来获取其文本和属性;如果返回结果是多个节点的生成器,则需要转为列表后取出某个元素,然后再调用string、attrs获取其文本和属性。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天意不可违.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值