BeautifulSoup
一、BeautifulSoup基本信息
定义
- 主要学bs4.BeautifulSoup,bs4内的一个非常好用的模块,美丽的汤,bs4:Beautiful Soup4
- Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库
安装
- pip install lxml
- pip install bs4
作用
- 解析网页和提取网页的数据
- PC端 网站中爬出数据 每一个网站都有自己的开发准则,只有多多掌握多种解析网页的技术,才能找到最合适的技术
- 最重要的是 find find_all
二、创建bs对象
- soup=BeautifulSoup(markup=’’, features=None)
- markup填的就是html格式源代码的字符串对象或xml源代码的elememt对象,看你选择哪种解释器
- features填的是解释器,有四种,features关键字可以不用填
- 返回的soup是bs4.BeautifulSoup对象,也叫bs对象
解释器 | 使用方法 | 特点 |
---|---|---|
python标准库 | BeautifulSoup(markup,‘html.parser’ ) | 不好用不用 |
lxml html 解释器 | BeautifulSoup(markup,‘lxml’ ) | 最常用,速度快,文档容错能力强,支持的html文档 |
lxml xml 解释器 | BeautifulSoup(markup,[lxml’,‘xml’] ) 或 BeautifulSoup(markup,‘xml’) | 不常用,唯一支持xml的解析器 |
html5lib | BeautifulSoup(markup,‘html5lib’) | 不常用,是谷歌做的,可以针对那些网页标签缺失与错落,有最好的容错性,一浏览器的方式解析文档,生成html5lib格式的文档 ,速度慢,不依赖外部扩展 |
三、对soup的对象进行解析
例子:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://ex