Beautifulsoup4解析网页入门

最新推荐文章于 2024-08-06 23:23:32 发布

code_mryxj

最新推荐文章于 2024-08-06 23:23:32 发布

阅读量1.4k

点赞数 1

分类专栏：网络爬虫技术及小工具 Python语法糖以及爬虫技巧文章标签： python beautifulsoup4

本文链接：https://blog.csdn.net/yexiaohhjk/article/details/79063682

版权

网络爬虫技术及小工具同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

Python语法糖以及爬虫技巧

3 篇文章 0 订阅

订阅专栏

文章内容

举例说明用Beautufulsoup4库解析提取出某个网页特定标签下信息的常用用法。

参考资料：Beautifulsuop4文档

我们都知道一个网页其实就是一段html（超文本语言）代码，每一块内容都在特定的标签Tag下充实它的骨骼，而css样式表就像它的外衣去修饰它表现形式。而我们爬虫解析网页原理无非是根据http协议用一个request请求访问对方服务器获取目标网页的html代码，然后解析这段html代码去获得我们想要的信息。所以我们解析网页过程实际上就是先根据该网页html代码编辑特点，先定位到我们想要信息的html标签下，然后获取想要的值。

所以我们在用bs4库解析网页内容，获取特定信息时分两个步骤：

定位到特定目标信息的子标签
获取目标内容属性值

接下来通过举例：解析获取某新闻网页的标题，来说明如何使用bs4库。

如何定位到目标信息的子标签

如果这个标签或者类名只出现一次:

直接通过find_all()，或者select找到那个Tag(标签)或者类名。

print('title:',soup.find_all('h2')[0].string)

所以如果抽取目标信息的那一层的标签或者类名不唯一时，我会向上找到唯一父辈标签和类名，在向下逐层表示。

其他的时候

常用的三种不同方式去获取该网页的标题：

通过find_all()方法的attrs参数定义一个字典参数来搜索包含特殊属性的

print('title:',soup.find_all(attrs={"class":"list_2_l44"})[0].h2.string)

通过find_all()按CSS搜索

按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag

 print('title:',soup.find_all("div",class_="list_2_l44")[0].h2.string)

CSS选择器select:通过css类名，tag标签逐层寻找

Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html , 在Tag或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:

print('title:', soup.select('.list_2_l44 h2')[0].string)

注意，这里select里传入字符串参数的规则是:

类名前面需要+.,同时如果同一层类名里有空格需要用.隔开，子层用空格隔开。
id前面需要+#。
Tag 标签直接使用标签名。

以上三种方法，我认为最好用以及推荐是第三种CSS选择器。

详见下面：

CSS选择器¶

Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html [6] , 在 Tag 或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:

 
   soup.select("title")
# [<title>The Dormouse's story</title>]

soup.select(“p:nth-of-type(3)”)
# [<p class=“story”>…</p>]

通过tag标签逐层查找:

 
  soup.select("body a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.select(“html head title”)
# [<title>The Dormouse’s story</title>]

找到某个tag标签下的直接子标签 [6] :

 
  soup.select("head > title")
# [<title>The Dormouse's story</title>]

soup.select(“p > a”)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

soup.select(“p > a:nth-of-type(2)”)
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]

soup.select(“p > #link1”)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>]

soup.select(“body > a”)
# []

找到兄弟节点标签:

 
  soup.select("#link1 ~ .sister")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie"  id="link3">Tillie</a>]

soup.select("#link1 + .sister")
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]

通过CSS的类名查找:

 
  soup.select(".sister")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.select("[class~=sister]")
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

通过tag的id查找:

 
  soup.select("#link1")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

soup.select(“a#link2”)
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]

同时用多种CSS选择器查询元素:

 
  soup.select("#link1,#link2")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

通过是否存在某个属性来查找:

 
  soup.select('a[href]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

通过属性的值来查找:

 
  soup.select('a[href="http://example.com/elsie"]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

soup.select(‘a[href^=“http://example.com/”]’)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

soup.select(‘a[href$=“tillie”]’)
# [<a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

soup.select(‘a[href*=".com/el"]’)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>]

通过语言设置来查找:

 
  multilingual_markup = """
 <p lang="en">Hello</p>
 <p lang="en-us">Howdy, y'all</p>
 <p lang="en-gb">Pip-pip, old fruit</p>
 <p lang="fr">Bonjour mes amis</p>
"""
multilingual_soup = BeautifulSoup(multilingual_markup)
multilingual_soup.select('p[lang|=en]')
# [<p lang="en">Hello</p>,
#  <p lang="en-us">Howdy, y'all</p>,
#  <p lang="en-gb">Pip-pip, old fruit</p>]
 
 

返回查找到的元素的第一个

 
  soup.select_one(".sister")
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

对于熟悉CSS选择器语法的人来说这是个非常方便的方法.Beautiful Soup也支持CSS选择器API, 如果你仅仅需要CSS选择器的功能,那么直接使用 lxml 也可以, 而且速度更快,支持更多的CSS选择器语法,但Beautiful Soup整合了CSS选择器的语法和自身方便使用API.