第二章网络爬虫之提取 3-1 Beautiful Soup库入门

最新推荐文章于 2024-08-08 15:42:55 发布

jackxu1018

最新推荐文章于 2024-08-08 15:42:55 发布

阅读量309

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yky__xukai/article/details/106483000

版权

python网络爬虫专栏收录该内容

12 篇文章 1 订阅

订阅专栏

文章截图均来自中国大学mooc Python网络爬虫与信息提取的教程，以上仅作为我的个人学习笔记。

下面是教程链接：https://www.icourse163.org/learn/BIT-1001870001?tid=1450316449#/learn/content?type=detail&id=1214620493&cid=1218397635&replay=true

Beautiful Soup（美味汤）库的安装：

可以对HTML、XML格式进行解析，并且提取其中的相关信息

BeautifulSoup类：

Beautiful Soup库解析器：

Beautiful Soup类基本元素：

标签获取：

标签名字：

标签属性：

标签之间的字符串：

出现注释部分处理方法：

基于bs4库的HTML内容遍历方法:

回顾demo.html:

事实上无论是HTML、XML都是树形格式的：形成了三种遍历方法。

下行遍历：

可以用for in 的形式遍历

上行遍历

平行遍历：前提是所有的平行遍历必须发生在同一个父亲节点下的各节点之间

遍历小结：

基于bs4库的html格式输出：（如何才能让html更加有好的显示？）

.prettify方法：会在标签后面加上换行符'/n';可以用print函数将相关信息打印出来：会变得非常清晰

;

bs4库的编码：使用国际通用的utf-8（可以识别中文）

单元小结：

首先我们要知道bs4库：bs4库是用来解析html、xml文档的功能库
使用方法非常简单：from bs4 import BeautifulSoup（注意B、S是大写）、通过相关的解析器对目标文档进行解析
bs4库提供了5中可以使用的元素

遍历所有标签树的基本方法（以及各种不同的遍历结果类型）：上行、下行、平行
基于bs4库的文档格式输出

展望：

需要进一步了解掌握一些信息提取的方法。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。