11 Beautiful Soup 解析库的简介及安装

最新推荐文章于 2023-07-06 21:52:05 发布

安迪python学习笔记

最新推荐文章于 2023-07-06 21:52:05 发布

阅读量447

点赞数 2

分类专栏：网络爬虫文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_63986098/article/details/125382775

版权

网络爬虫专栏收录该内容

21 篇文章 14 订阅

订阅专栏

11 Beautiful Soup 解析库的简介及安装

文章目录

11 Beautiful Soup 解析库的简介及安装

我们要完成一个爬虫任务需要以下3个步骤：
步骤1：获取网页；获取网页即发起网页请求，获取网页源代码。
步骤2：解析网页；解析网成首先要完成解析数据，然后再提取数据。
步骤3：存储数据。

Python 要处理csv文件，需要先生成一个 Python 对象，即 csv 对象。
Python 要处理获取到的 HTML 网页，也需要先生成一个 Python 对象。
解析数据的作用就是要将 HTML文档转化为 Python 程序可处理的 Python 对象。

解析数据需要使用解析库和解析器才能实现。

Beautiful Soup 和Xpath 都是用于解析数据的解析库。

11.1 Beautiful Soup 解析库简介

11.1.1 Beautiful Soup 的特点

在这里插入图片描述

1.API简单、功能强大

Beautiful Soup 提供一些简单的方法和Python式函数，用于浏览、搜索和和修改解析树，它是一个工具箱，通过解析文档为用户提供需要抓取的数据。

Beautiful Soup 和Xpath 都可以从文档中提取数据。
但Beautiful Soup 还可以修改文档中的数据，这是Xpath 不具备的功能。

2. 支持多种解析器

Beautiful Soup 在使用时需要给它安装解析器。
Beautiful Soup 支持多种解析器。
包括Python标准库中的HTML解析器，也支持第三方解析器。

3. 自动实现编码的转换

Beautiful Soup 自动将输入文档转换成Unicode类型，输出文档转换为uft-8编码。
如果文档中没指定编码，只需我们指定编码即可。

11.2 Beautiful Soup 解析库的安装

目前Beautiful Soup 的最新版本是4.x，之前的版本已经停止开发了。
所以今后的解析都用beautifulsoup4 。

beautifulsoup4 简写为bs4。
bs4 库是Python的第三方库，使用前必须先安装后导入。
bs4 的 4 表示版本。

安装命令

pip3 install beautifulsoup4

11.3 Beautiful Soup 解析器

在这里插入图片描述

解析器的安装方法

安装lxml

Beautiful Soup 的LXML HTML解析器是依赖于lxml库的，使用之前需要先安装lxml库。

安装命令

pips install lxml

安装html5lib

安装命令

pips install html5lib

安迪python学习笔记

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。