bs4 删除clear、decompose、extract的区别

1. clear

清除标签内的内容(包括子标签和文本)

html = "<html><body><p><a></a></p></body></html>"
soup.p.clear()
# <html><body><p></p></body></html>
2. decompose

清除标签(包括该标签)的内容(包括子标签和文本)

html = "<html><body><p><a></a></p></body></html>"
soup.p.decompose()
# <html><body></body></html>
3. extract

清除标签(包括该标签)的内容(包括子标签和文本)并返回
同decompose,但是会返回删除的节点

html = "<html><body><p><a></a></p></body></html>"
p_extract = soup.p.extract()
# <html><body></body></html>
# p_extract:<p><a></a></p>
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Beautiful Soup(简称BS4)是一个Python库,用于解析HTML和XML文档,并提供了一种Pythonic的方式来遍历、搜索和修改文档的节点。它将复杂的HTML或XML文档转换为树形结构,使得数据提取变得更加简单和灵活。 下面是Beautiful Soup的基本用法介绍: 1. 安装Beautiful Soup库:可以使用pip命令来安装Beautiful Soup库。 ```shell pip install beautifulsoup4 ``` 2. 导入库:在Python代码中导入Beautiful Soup库。 ```python from bs4 import BeautifulSoup ``` 3. 创建Beautiful Soup对象:使用BeautifulSoup类,传入待解析的HTML或XML文档字符串或文件对象。 ```python html = """ <html> <body> <h1>Page Title</h1> <p>This is a paragraph.</p> <ul> <li>Item 1</li> <li>Item 2</li> <li>Item 3</li> </ul> </body> </html> """ soup = BeautifulSoup(html, 'html.parser') ``` 4. 树形结构遍历:可以通过节点间的层级关系遍历文档的树形结构。 ```python # 获取页面标题 title = soup.h1.text print(title) # 输出: "Page Title" # 获取段落内容 paragraph = soup.p.text print(paragraph) # 输出: "This is a paragraph." # 获取所有列表项 list_items = soup.ul.find_all("li") for item in list_items: print(item.text) # 输出: # "Item 1" # "Item 2" # "Item 3" ``` 5. 节点搜索:可以使用各种方法来搜索和提取文档中的节点。 ```python # 通过标签名搜索节点 paragraph = soup.find("p") print(paragraph.text) # 输出: "This is a paragraph." # 通过CSS选择器搜索节点 list_items = soup.select("ul li") for item in list_items: print(item.text) # 输出: # "Item 1" # "Item 2" # "Item 3" ``` 6. 节点修改:可以对文档中的节点进行修改、添加或删除操作。 ```python # 修改节点文本内容 title = soup.h1 title.string = "New Page Title" print(title.text) # 输出: "New Page Title" # 添加新节点 new_item = soup.new_tag("li") new_item.string = "Item 4" soup.ul.append(new_item) # 删除节点 item_to_delete = soup.find("li", text="Item 2") item_to_delete.decompose() ``` Beautiful Soup提供了丰富的方法和属性来处理HTML或XML文档,具有灵活性和易用性。通过使用Beautiful Soup,可以更方便地进行数据提取和文档处理,适用于网页爬虫、数据抓取、数据清洗和数据分析等任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值