初试小刀内容提取神器——BeatifulSoup

本文介绍了Python中用于内容提取的库BeautifulSoup,强调其简单易用的特点,并提供了安装和基本使用方法,包括如何创建BeautifulSoup对象、查找元素等。通过一个实际的例子展示了如何利用BeautifulSoup提取HTML文档中的段落内容。
摘要由CSDN通过智能技术生成
什么是内容提取?
  • 说到内容提取,大家会想到爬虫,那爬虫是关注在如何把网页上的内容抓取下来。而今天我们来分享下,当你已经把内容爬下来之后,如何提取出其中你需要的具体信息。
  • 以信永中和项目为例,其中有一个功能叫做智能报告,智能报告有一个章节叫做:正文装配,其中正文装配的内容是以Html文档的形式被爬下来的,我们要测试正文内容的正确与否,需要对这个html文档做内容提取。
  • 所以,内容提取就是将从网上爬下来的文档(比如带标签的html)进行内容提取。就像java里有Soup这个方法一样,同理,python有BeautifuSoup这个方法。
认识BeautifuSoup
  • HTML 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。于是,就有了lxml、pyquery、BeautifulSoup等网页信息提取库。一般我们会用这些库来提取网页信息。其中,lxml 有很高的解析效率,支持 xPath 语法(一种可以在 HTML 中查找信息的规则语法);pyquery 得名于 jQuery(知名的前端 js 库),可以用类似 jQuery 的语法解析网页。但我们今天要说的,是剩下的这个:BeautifulSoup。
  • BeautifulSoup(简称 bs)翻译成中文就是“美丽的汤”,这个奇特的名字来源于《爱丽丝梦游仙境》(这也是为何在其官网会配上奇怪的插图,以及用《爱丽丝》的片段作为测试文本)。参见:https://www.crummy.com/s
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值