初试小刀内容提取神器——BeatifulSoup

最新推荐文章于 2022-02-07 14:25:40 发布

李二伟

最新推荐文章于 2022-02-07 14:25:40 发布

阅读量517

点赞数 1

分类专栏：测试

本文链接：https://blog.csdn.net/weixin_43834228/article/details/107044161

版权

本文介绍了Python中用于内容提取的库BeautifulSoup，强调其简单易用的特点，并提供了安装和基本使用方法，包括如何创建BeautifulSoup对象、查找元素等。通过一个实际的例子展示了如何利用BeautifulSoup提取HTML文档中的段落内容。

摘要由CSDN通过智能技术生成

说到内容提取，大家会想到爬虫，那爬虫是关注在如何把网页上的内容抓取下来。而今天我们来分享下，当你已经把内容爬下来之后，如何提取出其中你需要的具体信息。
以信永中和项目为例，其中有一个功能叫做智能报告，智能报告有一个章节叫做：正文装配，其中正文装配的内容是以Html文档的形式被爬下来的，我们要测试正文内容的正确与否，需要对这个html文档做内容提取。
所以，内容提取就是将从网上爬下来的文档（比如带标签的html）进行内容提取。就像java里有Soup这个方法一样，同理，python有BeautifuSoup这个方法。

HTML 文档本身是结构化的文本，有一定的规则，通过它的结构可以简化信息提取。于是，就有了lxml、pyquery、BeautifulSoup等网页信息提取库。一般我们会用这些库来提取网页信息。其中，lxml 有很高的解析效率，支持 xPath 语法（一种可以在 HTML 中查找信息的规则语法）；pyquery 得名于 jQuery（知名的前端 js 库），可以用类似 jQuery 的语法解析网页。但我们今天要说的，是剩下的这个：BeautifulSoup。
BeautifulSoup（简称 bs）翻译成中文就是“美丽的汤”，这个奇特的名字来源于《爱丽丝梦游仙境》（这也是为何在其官网会配上奇怪的插图，以及用《爱丽丝》的片段作为测试文本）。参见：https://www.crummy.com/s

关注