Beautiful soup (美味的汤)

Beautiful soup 将复杂的HTML文档转化为一个复杂的树形结构,每个节点都是Python对象,所有对象可以分为四类:Tag类(标签类)navigableString(可以遍历的字符串类)Beautifulsoupcomment

Tag类:

tag类与htnlXHL中的标签相同,可以作为Beautifulsoup的属性直接访问。

Tag常见的属性和方法:

Tag.name

Tag.attributes

Tag.contents

Tag.children

Tag.descendants

Tag.string

Tag.strings

Tag.stripped_strings

Tag.parent

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')

tag = soup.b

type(tag)# <class 'bs4.element.Tag'>

  Tag有很多属性和方法,其中做重要的有nameattributes.

Name:

每个Tag都有自己的名字,可以通过name访问。

注意:如果改变了name的值,那就影响通过当前解析的的所有html文档。

Attributes:

一个Tag可能有很多属性,tag属性的操作方法与字典相同。可以增加、修改、删除。如果是多值属性,返回的是列表。

  Eg:     a[‘href’]

NavigaableString(可遍历的字符串)

字符串常包含在Tag内,Beautiful SoupnavigableString来包装string,一个navigableStringpythonunicode字符串相同。

Eg:       a.string

 

注意:Tag属性访问是字典方式,而标签之间的字符串访问是点方式。

 

遍历文档树:

一个tag可能有很多字节点和字符串,可以通过点的方式访问。

搜索文档树:

Soup.find()soup.find_all()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值