爬虫之BeautifulSoup的用法

最新推荐文章于 2024-02-21 20:10:21 发布

zadavis

最新推荐文章于 2024-02-21 20:10:21 发布

阅读量1.9k

点赞数 8

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_46528046/article/details/107460254

版权

爬虫专栏收录该内容

3 篇文章 2 订阅

订阅专栏

Beautiful Soup是python的一个HTML或XML的解析库，可以很方便地从网页中提取数据。BS自动将输入文档转换成Unicode编码，输出文档转换成UFT-8编码。

用法

from bs4 import BeautifulSoup

html = '''
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
'''

soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())
print(soup.title.string)

输出结果：

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    <!-- Elsie -->
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>
The Dormouse's story

Beautiful Soup会将传入的HTML中缺少的节点自动补齐，而prettify()方法可以把将要解析的字符串html以标准的缩近格式输出。soup.title可以选取HTML中的title节点，再调用string属性可以得到里面的文本

一、节点选择器

1.选择元素

from bs4 import BeautifulSoup

html = '''
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
'''

soup = BeautifulSoup(html, 'lxml') #使用lxml解析器

#以下是简单浏览结构化数据的方法

# title标签 打印的是标签字符串
print(soup.title)   # 打印：<title>The Dormouse's story</title>

# 打印的是title标签里的内容
print(soup.title.string)   # 打印：The Dormouse's story

# p标签里面的class对象的名
print(soup.p['class'])      # 打印：['title']

# 打印标签的名称
print(soup.title.name)      # 打印：title

# .parent是选择父标签
print(soup.title.parent.name)   # 打印：head

#  打印所有的a标签字符串
print(soup.find_all('a'))

# 打印id = "link3" 的标签字符串
print(soup.find_all(id = "link3"))

# 从文档中找到所有a标签的链接
for i in soup.find_all('a'):
    print(i.get('href'))

# 获取所有的文字内容
print(soup.get_text())

2.attrs

每个节点可能有多个属性，通过attrs，可以获得所有属性

print(soup.p.attrs)
print(soup.p.attrs['name'])
print(soup.p['class'])

输出结果：

{'class': ['title'], 'name': 'dromouse'}
dromouse
['title']

这里需要注意的是，有的返回结果是字符串，有的返回结果是字符串组成的列表。比如，name属性的值是唯一的，返回的结果就是单个字符串。而对于class，一个节点元素可能有多个class，所以返回的是列表。在实际处理过程中，我们要注意判断类型。

二.find_all()

1.根据节点名来查询元素

html = '''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(name='ul'))

输出结果：

[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>, <ul class="list list-small" id="list-2">
<li class="element">Foo</li>
<li class="element">Bar</li>
</ul>]

这里我们调用了find_all()方法，传入name参数，其参数值为ul。也就是说，我们想要查询所有ul节点，返回结果是列表类型，长度为2，每个元素依然都是bs4.element.Tag类型。
因为都是Tag类型，所以依然可以进行嵌套查询。还是同样的文本，这里查询出所有ul节点后，再继续查询其内部的li节点：

for ul in soup.find_all(name='ul'):
    print(ul.find_all(name='li'))

输出结果：

[<li class="element">Foo</li>, <li class="element">Bar</li>, <li class="element">Jay</li>]
[<li class="element">Foo</li>, <li class="element">Bar</li>]

2.传入属性来查询

print(soup.find_all(attrs={'id':'list-1'}))

输出结果：

[<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>

这里查询的时候传入的是attrs参数，参数的类型是字典类型。比如，要查询id为list-1的节点，可以传入attrs={‘id’: ‘list-1’}的查询条件，得到的结果是列表形式，包含的内容就是符合id为list-1的所有节点。

对于一些常用的属性，比如id和class等，我们可以不用attrs来传递。比如，要查询id为list-1的节点，可以直接传入id这个参数。还是上面的文本，我们换一种方式来查询：

print(soup.find_all(id='list-1'))

这里直接传入id=‘list-1’，就可以查询id为list-1的节点元素了。而对于class来说，由于class在Python里是一个关键字，所以后面需要加一个下划线，即class_=‘element’，返回的结果依然还是Tag组成的列表。

3.text

可以传入字符串或正则表达式

import re
from bs4 import BeautifulSoup

html='''
<div class="panel">
    <div class="panel-body">
        <a>Hello, this is a link</a>
        <a>Hello, this is a link, too</a>
    </div>
</div>
'''

soup = BeautifulSoup(html, 'lxml')
print(soup.find_all(text=re.compile('.*is.*link.*')))

输出结果：

['Hello, this is a link', 'Hello, this is a link, too']

三、find

返回第一个匹配的元素

from bs4 import BeautifulSoup

html='''
<div class="panel">
    <div class="panel-heading">
        <h4>Hello</h4>
    </div>
    <div class="panel-body">
        <ul class="list" id="list-1">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
            <li class="element">Jay</li>
        </ul>
        <ul class="list list-small" id="list-2">
            <li class="element">Foo</li>
            <li class="element">Bar</li>
        </ul>
    </div>
</div>
'''

soup = BeautifulSoup(html, 'lxml')
print(soup.find(name='ul'))
print(type(soup.find(name='ul')))
print(soup.find(class_='list'))

输出结果：

<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>
<class 'bs4.element.Tag'>
<ul class="list" id="list-1">
<li class="element">Foo</li>
<li class="element">Bar</li>
<li class="element">Jay</li>
</ul>

四、CSS选择器

我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list

1.通过标签查找

print soup.select('title') 
#[<title>The Dormouse's story</title>]

print soup.select('a')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

2.通过类名查找

print soup.select('.sister')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

3.通过id名查找

print soup.select('#link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

4.组合查找

组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开：

print soup.select('p #link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

直接字标签查找，使用分隔符>

print soup.select("head > title")
#[<title>The Dormouse's story</title>]

5.属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到：

print soup.select('a[class="sister"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
 
print soup.select('a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

五、实战

待更新

zadavis

关注

8
点赞
踩
42

收藏

觉得还不错? 一键收藏
0
评论
爬虫之BeautifulSoup的用法

Beautiful Soup是python的一个HTML或XML的解析库，可以很方便地从网页中提取数据。BS自动将输入文档转换成Unicode编码，输出文档转换成UFT-8编码。用法from bs4 import BeautifulSouphtml = '''<html><head><title>The Dormouse's story</title></head><body><p class="title" nam
复制链接

扫一扫