BeautifulSoup中find_all()和select()的区别

最新推荐文章于 2025-04-01 17:14:19 发布

且迷这风浪丶

最新推荐文章于 2025-04-01 17:14:19 发布

阅读量2.8k

点赞数 2

文章标签： beautifulsoup python 爬虫

本文链接：https://blog.csdn.net/weixin_62543649/article/details/125769718

版权

本文解析了BeautifulSoup库中select()和find_all()方法的区别，select()基于CSS选择器提供简洁的层级查找，find_all()则广泛用于多条件搜索。两者虽然功能相似，但select()更简洁，适合CSS选择器风格的操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

省流：select()更简洁，但是find_all使用更广，可调的参数也更多。

在学习bs4的过程中，发现有的文章教程是使用find_all(),有的使用select(),二者在功能上很像，而且都是返回页面中所有，所以有了一个疑问，二者有什么区别呢？。
搜索了之后，有一篇文章将官方文档的解释扒了下来：
具体链接：find_all()和 select()的区别
具体就是：
select()是使用CSS选择器的语法找到tag 如：

soup.select("title") 
# [<title>The Dormouse's story</title>]

通过tag标签逐层查找:
soup.select("body a") #body子孙标签中的a标签
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

找到某个tag标签下的直接子标签
soup.select("p > a:nth-of-type(2)")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

find_all()方法搜索当前tag的所有tag子孙节点,并判断是否符合过滤器的条件

soup.find_all("title")
# [<title>The Dormouse's story</title>]

css_soup.find_all("p", class_="body")
# [<p class="body strikeout"></p>]

反正我现在还看不懂，总之就是二者的底层实现不同。
但是功能是相同的。

后来找了半天，具体功能实现上也没啥区别，但是二者的使用方式不太一样：
find_all()方法

'''
find_all(name, attrs, recursive, string, limit, **kwargs)
@PARAMS:
	name: 查找的value，可以是string，list，function，真值或者re正则表达式
	attrs: 查找的value的一些属性，class等。
	recursive: 是否递归查找子类，bool类型
	string: 使用此参数，查找结果为string类型；如果和name搭配，就是查找符合name的包含string的结果。
	limit: 查找的value的个数
	**kwargs: 其他一些参数
'''

select()方法

'''
BeautifulSoup支持最常用的CSS选择器. 将字符串str传递到标签对象或者BeautifulSoup对象自身的select()方法中.
'''
soup.select("p.strikeout.body")

在具体的使用起来，就是一些情况下，select()更简洁：
比如多层次筛选：
搜索p标签下属性为info的标签
find_all():

p1=soup.find_all('p',class_='info')#或者
soup.find_all("p", attrs={"class": "info"})

select()方法

p2=soup.select('p.info')

总之
select()更简洁，但是find_all使用更广，可调的参数也更多。