Beautiful soup (美味的汤）

最新推荐文章于 2024-03-16 10:49:32 发布

勉强不得

最新推荐文章于 2024-03-16 10:49:32 发布

阅读量471

点赞数

分类专栏： python 文章标签： python beautifulsoup

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlzg007/article/details/80292741

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Beautiful soup 将复杂的HTML文档转化为一个复杂的树形结构，每个节点都是Python对象，所有对象可以分为四类：Tag类（标签类）、navigableString(可以遍历的字符串类）、Beautifulsoup、comment。

Tag类：

tag类与htnl或XHL中的标签相同,可以作为Beautifulsoup的属性直接访问。

Tag常见的属性和方法：

Tag.name

Tag.attributes

Tag.contents

Tag.children

Tag.descendants

Tag.string

Tag.strings

Tag.stripped_strings

Tag.parent

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')

tag = soup.b

type(tag)# <class 'bs4.element.Tag'>

Tag有很多属性和方法，其中做重要的有name和attributes.

Name:

每个Tag都有自己的名字，可以通过name访问。

注意：如果改变了name的值，那就影响通过当前解析的的所有html文档。

Attributes:

一个Tag可能有很多属性，tag属性的操作方法与字典相同。可以增加、修改、删除。如果是多值属性，返回的是列表。

Eg: a[‘href’]

NavigaableString(可遍历的字符串）：

字符串常包含在Tag内，Beautiful Soup用navigableString来包装string,一个navigableString与python的unicode字符串相同。

Eg: a.string

注意：Tag属性访问是字典方式，而标签之间的字符串访问是点方式。

遍历文档树：

一个tag可能有很多字节点和字符串，可以通过点的方式访问。

搜索文档树：

Soup.find()和soup.find_all()

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。