网络爬虫信息提取Beatutiful Soup库

Beautiful Soup库

Beautiful Soup库是解析,遍历,维护标签树(HTML,XML)的功能库
Beautiful Soup库安装,我们只需要打开DOS命令见面,pip install beautifulsoup4就可以了。
BeautifulSoup的引用:from bs4 import BeautifulSoup
关于BeautifulSoup类的理解:BeautifulSoup对应着标签树或是HTML,XML文档的全部内容。

from bs4 import BeautifulSoup
soup = BeautifulSoup("<html>data</html>",'html.parser')
soup = BeautifulSoup(open('D://demo/html'),"html,parser")

在这里插入图片描述

BeautifulSoup类的基本元素

BeautifulSoup类对应的实例对象soup是一个HTML或者XML文档,它有以下属性,这些属性也很好理解,就是HTML文档的标签相关的一些。
在这里插入图片描述在这里插入图片描述

基于bs4库HTML遍历的方法

HTML文档是由标签树组成的,展开来看它像一棵树。针对标签的遍历有三种方法:下行遍历,上行遍历,平行遍历
在这里插入图片描述

下行遍历

在这里插入图片描述

上行遍历

在这里插入图片描述

平行遍历

在这里插入图片描述平行遍历发生在同一父节点的各节点之间

基于bs4库的HTML的格式化和编码

让HTML文档友好的显示
soup或者tag里面都有一个方法是prettify()可以是页面友好的显示出来
在这里插入图片描述

基于bs4库的HTML内容查找方法

<>.findall(name,attrs,recusive,string,**kwargs):返回值是一个列表,存储查找的结果
name:对标签名称检索的字符串(查询多个名称时采用列表形式查询)
attrs:对标签属性检索的字符串,可标注属性检索。常为正则表达式对象
recusive:是否对所有子孙标签进行检索,默认为true
string:<></>中字符串区域检索字符串
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值