解析网页--BeautifulSoup-bs4-python爬虫知识点6

一、BeautifulSoup基本信息

定义

  • 主要学bs4.BeautifulSoup,bs4内的一个非常好用的模块,美丽的汤,bs4:Beautiful Soup4
  • Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库

安装

  • pip install lxml
  • pip install bs4

作用

  • 解析网页和提取网页的数据
  • PC端 网站中爬出数据 每一个网站都有自己的开发准则,只有多多掌握多种解析网页的技术,才能找到最合适的技术
  • 最重要的是 find find_all

二、创建bs对象

  • soup=BeautifulSoup(markup=’’, features=None)
    • markup填的就是html格式源代码的字符串对象或xml源代码的elememt对象,看你选择哪种解释器
    • features填的是解释器,有四种,features关键字可以不用填
    • 返回的soup是bs4.BeautifulSoup对象,也叫bs对象
解释器 使用方法 特点
python标准库 BeautifulSoup(markup,‘html.parser’ ) 不好用不用
lxml html 解释器 BeautifulSoup(markup,‘lxml’ ) 最常用,速度快,文档容错能力强,支持的html文档
lxml xml 解释器 BeautifulSoup(markup,[lxml’,‘xml’] ) 或 BeautifulSoup(markup,‘xml’) 不常用,唯一支持xml的解析器
html5lib BeautifulSoup(markup,‘html5lib’) 不常用,是谷歌做的,可以针对那些网页标签缺失与错落,有最好的容错性,一浏览器的方式解析文档,生成html5lib格式的文档 ,速度慢,不依赖外部扩展

三、对soup的对象进行解析

例子:

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://ex
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洋芋本人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值