学习爬虫(第八天)

bs4的对象种类

tag : 标签

在这里插入图片描述
打印标签名字
在这里插入图片描述
attrs获取标签里的属性
在这里插入图片描述

NavigableString : 可导航的字符串

• string获取标签里面的内容
在这里插入图片描述
• strings 返回是一个生成器对象用过来获取多个标签内容
在这里插入图片描述

• stripped strings 和strings基本一致 但是它可以把多余的空格去掉

BeautifulSoup :soup对象

Comment : 注释

在这里插入图片描述

遍历树 遍历子节点

bs里面有三种情况,第一个是遍历,第二个是查找,第三个是修改

遍历树 遍历子节点

• contents 返回的是一个列表
在这里插入图片描述

• children 返回的是一个迭代器通过这个迭代器可以进行迭代
在这里插入图片描述

• descendants 返回的是一个生成器遍历子子孙孙
在这里插入图片描述

遍历树 遍历父节点

parent 和 parents
• parent直接获得父节点
在这里插入图片描述
• parents获取所有的父节点
在这里插入图片描述

遍历树 遍历兄弟结点

• next_sibling 下一个兄弟结点
在这里插入图片描述

• previous_sibling 上一个兄弟结点
在这里插入图片描述
• next_siblings 下一个所有兄弟结点
在这里插入图片描述

• previous_siblings上一个所有兄弟结点
在这里插入图片描述

漂亮的打印prettify():

能够把挤在一起的html整理的更漂亮
在这里插入图片描述

find_all()

• find_all()方法以列表形式返回所有的搜索到的标签数据
在这里插入图片描述
条件搜索:
在这里插入图片描述
get:
在这里插入图片描述

• find()方法返回搜索到的第一条数据
在这里插入图片描述

• find_all()方法参数

def find_all(self, name=None, attrs={}, recursive=True, text=None,
                 limit=None, **kwargs):

• name : tag名称
• attr : 标签的属性
• recursive : 是否递归搜索
• text : 文本内容
• limli : 限制返回条数
• kwargs : 关键字参数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值