python库之BeautifulSoup使用教程

安装BeautifulSoup

pip install beautifulsoup4

基本使用

from bs4 import BeautifulSoup
res = requests.get(url)
soup = BeautifulSoup(res.text, 'lxml')

删除标签、属性

# 删除标签
for i in ['style','video']:
    [s.extract() for s in soup(i)]

# 删除标签的属性
for element in soup.select('img'):
    del element['srcset']
for element in soup.select('a'):
    del element['href']

# 删除标签为div,属性class为abc的所有标签
remove_list = soup.find_all('div', attrs={'class': 'abc'})
[i.extract() for i in remove_list]

寻找标签

div1 = soup.find('div', id='me')     # 只匹配第一个
div1 = soup.find_all('div', attrs={'class': 'abc'})     # 匹配出所有

删除标签,但保留其子标签且位置不变

from bs4 import BeautifulSoup

html = '''
<html>
  <body>
    <div id="container">
    <p>This is a one</p>
      <div id="remove-me">
        <span>Child 1<a>111</a></span>
        <span>Child 2</span>
      </div>
      <p>This is a two</p>
    </div>
  </body>
</html>
'''
soup = BeautifulSoup(html, 'lxml')
# 找到要删除的 div 标签
div_to_remove = soup.find('div', id='remove-me')
if div_to_remove:
    # 获取父标签
    parent = div_to_remove.parent
    siblings = parent.contents
    position = siblings.index(div_to_remove)
    # 将子标签移动到父标签中
    while div_to_remove.contents:
        parent.insert(position,div_to_remove.contents[-1])
    # 删除原始标签
    div_to_remove.decompose()
# 打印结果
print(soup.prettify())

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云霄IT

感谢感谢!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值