解析网页--BeautifulSoup-bs4-python爬虫知识点6

洋芋本人

已于 2022-02-25 17:45:16 修改

阅读量725

点赞数

分类专栏： python爬虫知识文章标签： python

于 2021-05-08 19:50:59 首次发布

本文链接：https://blog.csdn.net/weixin_43761516/article/details/116501363

版权

BeautifulSoup

一、BeautifulSoup基本信息
二、创建bs对象
三、对soup的对象进行解析
三、标签处理
四、bs4的对象种类

一、BeautifulSoup基本信息

定义

主要学bs4.BeautifulSoup，bs4内的一个非常好用的模块，美丽的汤，bs4：Beautiful Soup4
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库

安装

pip install lxml
pip install bs4

作用

解析网页和提取网页的数据
PC端网站中爬出数据每一个网站都有自己的开发准则，只有多多掌握多种解析网页的技术，才能找到最合适的技术
最重要的是 find find_all

二、创建bs对象

soup=BeautifulSoup(markup=’’, features=None)
- markup填的就是html格式源代码的字符串对象或xml源代码的elememt对象，看你选择哪种解释器
- features填的是解释器，有四种，features关键字可以不用填
- 返回的soup是bs4.BeautifulSoup对象，也叫bs对象

解释器	使用方法	特点
python标准库	BeautifulSoup(markup,‘html.parser’ )	不好用不用
lxml html 解释器	BeautifulSoup(markup,‘lxml’ )	最常用，速度快，文档容错能力强，支持的html文档
lxml xml 解释器	BeautifulSoup(markup,[lxml’,‘xml’] ) 或 BeautifulSoup(markup,‘xml’)	不常用，唯一支持xml的解析器
html5lib	BeautifulSoup(markup,‘html5lib’)	不常用，是谷歌做的，可以针对那些网页标签缺失与错落，有最好的容错性，一浏览器的方式解析文档，生成html5lib格式的文档，速度慢，不依赖外部扩展

三、对soup的对象进行解析

例子：

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://ex

最低0.47元/天解锁文章

洋芋本人

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
解析网页--BeautifulSoup-bs4-python爬虫知识点6

BeautifulSoup一、BeautifulSoup基本信息定义主要学bs4.BeautifulSoup，bs4内的一个非常好用的模块，美丽的汤，bs4：Beautiful Soup4Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库安装pip install lxmlpip install bs4作用解析网页和提取网页的数据PC端网站中爬出数据每一个网站都有自己的开发准则，只有多多掌握多种解析网页的技术，才能找到最合适的技术最重
复制链接

扫一扫