BeautifulSoup对象的find_all()函数介绍

最新推荐文章于 2024-05-20 22:54:06 发布

牛亚肖

最新推荐文章于 2024-05-20 22:54:06 发布

阅读量368

点赞数 10

分类专栏：爬虫学习文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_43765541/article/details/137797408

版权

爬虫学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

`find_all()`函数是BeautifulSoup对象中一个常用的方法，用于在HTML文档中查找并提取符合特定条件的元素。它可以根据元素的名称、属性、文本内容等进行搜索，并返回一个包含所有符合条件的元素的列表。

函数语法：

Python

find_all(name, attrs={}, recursive=True, text='', **kwargs)

参数说明：

name：要查找的元素名称，可以是标签名称、XML命名空间等。如果省略，则会查找所有符合其他条件的元素。
attrs：一个字典，用于指定要查找的元素的属性。字典的键是属性名称，值是属性值。如果省略，则不会根据属性进行过滤。
recursive：布尔值，指示是否递归搜索子元素。如果为True（默认），则会递归搜索所有子元素；如果为False，则只搜索当前元素的直接子元素。
text：要查找的元素的文本内容。如果省略，则不会根据文本内容进行过滤。
**kwargs：其他可选参数，例如limit（限制查找结果的数量）等。

函数返回值：

find_all()函数返回一个包含所有符合条件的元素的列表。每个元素都是一个BeautifulSoup对象，代表一个HTML元素。

使用示例：

Python

from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
<title>BeautifulSoup Demo</title>
</head>
<body>
<p>This is a paragraph.</p>
<div id="mydiv">This is a div.</div>
<ul>
<li>Item 1</li>
<li>Item 2</li>
</ul>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# 查找所有p元素
paragraphs = soup.find_all('p')
for paragraph in paragraphs:
    print(paragraph.text)

# 查找id为mydiv的div元素
mydiv = soup.find_all('div', id='mydiv')
print(mydiv[0].text)

# 查找所有包含文本“Item”的li元素
items = soup.find_all('li', text=lambda x: 'Item' in x)
for item in items:
    print(item.text)

注意事项：