bs4的对象种类
tag : 标签
打印标签名字
attrs获取标签里的属性
NavigableString : 可导航的字符串
• string获取标签里面的内容
• strings 返回是一个生成器对象用过来获取多个标签内容
• stripped strings 和strings基本一致 但是它可以把多余的空格去掉
BeautifulSoup :soup对象
Comment : 注释
遍历树 遍历子节点
bs里面有三种情况,第一个是遍历,第二个是查找,第三个是修改
遍历树 遍历子节点
• contents 返回的是一个列表
• children 返回的是一个迭代器通过这个迭代器可以进行迭代
• descendants 返回的是一个生成器遍历子子孙孙
遍历树 遍历父节点
parent 和 parents
• parent直接获得父节点
• parents获取所有的父节点
遍历树 遍历兄弟结点
• next_sibling 下一个兄弟结点
• previous_sibling 上一个兄弟结点
• next_siblings 下一个所有兄弟结点
• previous_siblings上一个所有兄弟结点
漂亮的打印prettify():
能够把挤在一起的html整理的更漂亮
find_all()
• find_all()方法以列表形式返回所有的搜索到的标签数据
条件搜索:
get:
• find()方法返回搜索到的第一条数据
• find_all()方法参数
def find_all(self, name=None, attrs={}, recursive=True, text=None,
limit=None, **kwargs):
• name : tag名称
• attr : 标签的属性
• recursive : 是否递归搜索
• text : 文本内容
• limli : 限制返回条数
• kwargs : 关键字参数