网络爬虫信息提取Beatutiful Soup库

最新推荐文章于 2023-12-22 10:52:23 发布

山中雨客

最新推荐文章于 2023-12-22 10:52:23 发布

阅读量145

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_51313108/article/details/119352829

版权

Python学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

Beautiful Soup库

Beautiful Soup库是解析，遍历，维护标签树（HTML，XML）的功能库
Beautiful Soup库安装，我们只需要打开DOS命令见面，pip install beautifulsoup4就可以了。
BeautifulSoup的引用：from bs4 import BeautifulSoup
关于BeautifulSoup类的理解：BeautifulSoup对应着标签树或是HTML,XML文档的全部内容。

from bs4 import BeautifulSoup
soup = BeautifulSoup("<html>data</html>",'html.parser')
soup = BeautifulSoup(open('D://demo/html'),"html,parser")

在这里插入图片描述

BeautifulSoup类的基本元素

BeautifulSoup类对应的实例对象soup是一个HTML或者XML文档，它有以下属性，这些属性也很好理解，就是HTML文档的标签相关的一些。
在这里插入图片描述

基于bs4库HTML遍历的方法

HTML文档是由标签树组成的，展开来看它像一棵树。针对标签的遍历有三种方法：下行遍历，上行遍历，平行遍历
在这里插入图片描述

下行遍历

在这里插入图片描述

上行遍历

在这里插入图片描述

平行遍历

在这里插入图片描述平行遍历发生在同一父节点的各节点之间

基于bs4库的HTML的格式化和编码

让HTML文档友好的显示
soup或者tag里面都有一个方法是prettify()可以是页面友好的显示出来
在这里插入图片描述

基于bs4库的HTML内容查找方法

<>.findall(name,attrs,recusive,string,**kwargs):返回值是一个列表,存储查找的结果
name：对标签名称检索的字符串(查询多个名称时采用列表形式查询)
attrs：对标签属性检索的字符串，可标注属性检索。常为正则表达式对象
recusive：是否对所有子孙标签进行检索，默认为true
string：<></>中字符串区域检索字符串
在这里插入图片描述

山中雨客

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫信息提取Beatutiful Soup库

Beautiful Soup库Beautiful Soup库Beautiful Soup库Beautiful Soup库可以用来解析我们爬取网页所得到的源代码Beautiful Soup库安装，我们只需要打开DOS命令见面，pip install beautifulsoup4就可以了。
复制链接

扫一扫