python爬虫（BeautifulSoup库入门）

最新推荐文章于 2021-08-08 21:39:19 发布

Simone Zeng

最新推荐文章于 2021-08-08 21:39:19 发布

阅读量777

点赞数 2

分类专栏： python 文章标签： python爬虫 BeautifulSoup库入门

本文链接：https://blog.csdn.net/weixin_43983838/article/details/86825149

版权

python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

最近在学习爬虫，本篇是MOOC中的北理嵩天老师的课程笔记：python网络爬虫与信息提取。
适合小白入门BeautifulSoup库，阅读全篇需要6、7分钟。
欢迎大佬指正，谢谢哦~

Beautiful Soup(bs4)

1. 基础知识
它是一个用于解析html 和 xml 的功能库。
1.1首先，我们知道html文件，是由一对对的<>组成的，所以，我们又可以说，Beautiful Soup库是解析、遍历、维护“标签树”的功能库，把标签树转换成BeautifulSoup类。
在这里插入图片描述
1.2属性由键值对构成：
标签举例
1.3 Beautiful Soup 库解析器：

解析器	使用方法
bs4的html解析器	BeautifulSoup(mk, ’ html.parser’ )
lxml的html解析器	BeautifulSoup(mk, ’ lxml’ )
lxml的xml解析器	BeautifulSoup(mk, ’ xml’ )
html5lib解析器	BeautifulSoup(mk, ’ html5lib’ )

但是我们主要是用第一种

1.4 Beautiful Soup 类的5种基本元素
在这里插入图片描述
（以下代码也可以在IDLE中实现）

我们对b标签（注释，有<!>）和p标签分别用 .string 的时候，都能产生一段文本，但是当文本是注释的时候，它并没有标明它是注释。所以，我们在分析文本时，要对注释作判断，而判断依据就是它的类型。
在这里插入图片描述
2 基于bs4库的HTML遍历方法
2.1 HTML的基本格式

2.2下行遍历

下面我们举几个例子：

可以用 for in 的方式，遍历所有儿子或者子孙节点。

2.3上行遍历
在这里插入图片描述

2.4平行遍历

注意哦：
平行遍历是有条件的，必须发生在同一个父节点下的各节点间
而且，平行遍历获得的下一个节点，不一定是标签类型

在这里插入图片描述
同样，我们也可以用：

for sibling in soup.a.next_siblingsL
    print(sibling)

来遍历后续节点。

3. 基于bs4库HTML格式化

这部分我们主要回答一个问题：如何让内容，更加友好的显示？
不仅是使html的内容更加让人容易阅读，也使程序能够更好地运行和分析

这里我们就要谈到一个方法：prettify
在这里插入图片描述
可以看到，它在每一行标签后，都加了一个换行符 \n。这使得print后，结构更清晰。
当然，它还可以应用于一个标签：

感谢您的阅读~

Simone Zeng

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录