Beautifulsoup4解析网页入门

文章内容

举例说明用Beautufulsoup4库解析提取出某个网页特定标签下信息的常用用法。

参考资料:Beautifulsuop4文档

我们都知道一个网页其实就是一段html(超文本语言)代码,每一块内容都在特定的标签Tag下充实它的骨骼,而css样式表就像它的外衣去修饰它表现形式。而我们爬虫解析网页原理无非是根据http协议用一个request请求访问对方服务器获取目标网页的html代码,然后解析这段html代码去获得我们想要的信息。所以我们解析网页过程实际上就是先根据该网页html代码编辑特点,先定位到我们想要信息的html标签下,然后获取想要的值。

所以我们在用bs4库解析网页内容,获取特定信息时分两个步骤:

  • 定位到特定目标信息的子标签
  • 获取目标内容属性值

接下来通过举例:解析获取某新闻网页的标题,来说明如何使用bs4库。

如何定位到目标信息的子标签

如果这个标签或者类名只出现一次:

直接通过find_all(),或者select找到那个Tag(标签)或者类名。

print('title:',soup.find_all('h2')[0].string)

所以如果抽取目标信息的那一层的标签或者类名不唯一时,我会向上找到唯一父辈标签和类名,在向下逐层表示。

其他的时候

常用的三种不同方式去获取该网页的标题:

通过find_all()方法的attrs参数定义一个字典参数来搜索包含特殊属性的
print('title:',soup.find_all(attrs={"class":"list_2_l44"})[0].h2.string)
通过find_all()按CSS搜索

按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag

 print('title:',soup.find_all("div",class_="list_2_l44")[0].h2.string)
CSS选择器select:通过css类名,tag标签逐层寻找

Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html , 在Tag或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:

print('title:', soup.select('.list_2_l44 h2')[0].string)

注意,这里select里传入字符串参数的规则是:

  • 类名前面需要+.,同时如果同一层类名里有空格需要用.隔开,子层用空格隔开。

  • id前面需要+#

  • Tag 标签直接使用标签名。

以上三种方法,我认为最好用以及推荐是第三种CSS选择器。

详见下面:

CSS选择器

Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html [6] , 在 TagBeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:

soup.select("title")
# [<title>The Dormouse's story</title>]

soup.select(“p:nth-of-type(3)”)
# [<p class=“story”>…</p>]

通过tag标签逐层查找:

soup.select("body a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie"  id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.select(“html head title”)
# [<title>The Dormouse’s story</title>]

找到某个tag标签下的直接子标签 [6] :

soup.select("head > title")
# [<title>The Dormouse's story</title>]

soup.select(“p > a”)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

soup.select(“p > a:nth-of-type(2)”)
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]

soup.select(“p > #link1”)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>]

soup.select(“body > a”)
# []

找到兄弟节点标签:

soup.select("#link1 ~ .sister")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie"  id="link3">Tillie</a>]

soup.select("#link1 + .sister")
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]

通过CSS的类名查找:

soup.select(".sister")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.select("[class~=sister]")
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

通过tag的id查找:

soup.select("#link1")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

soup.select(“a#link2”)
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]

同时用多种CSS选择器查询元素:

soup.select("#link1,#link2")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

通过是否存在某个属性来查找:

soup.select('a[href]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

通过属性的值来查找:

soup.select('a[href="http://example.com/elsie"]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

soup.select(‘a[href^=“http://example.com/”]’)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

soup.select(‘a[href$=“tillie”]’)
# [<a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]

soup.select(‘a[href*=".com/el"]’)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>]

通过语言设置来查找:

multilingual_markup = """
 <p lang="en">Hello</p>
 <p lang="en-us">Howdy, y'all</p>
 <p lang="en-gb">Pip-pip, old fruit</p>
 <p lang="fr">Bonjour mes amis</p>
"""
multilingual_soup = BeautifulSoup(multilingual_markup)
multilingual_soup.select('p[lang|=en]')
# [<p lang="en">Hello</p>,
#  <p lang="en-us">Howdy, y'all</p>,
#  <p lang="en-gb">Pip-pip, old fruit</p>]

返回查找到的元素的第一个

soup.select_one(".sister")
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

对于熟悉CSS选择器语法的人来说这是个非常方便的方法.Beautiful Soup也支持CSS选择器API, 如果你仅仅需要CSS选择器的功能,那么直接使用 lxml 也可以, 而且速度更快,支持更多的CSS选择器语法,但Beautiful Soup整合了CSS选择器的语法和自身方便使用API.

定位到后如何获取属性值

当使用find_all()或者select()函数获取到所有满足条件的标签时返回是一个list集合,取单个Beautifulsoup类型对象后,有两种不同类型属性值获取方式:

  • ['attrs']取标签里的属性值:
  • .获取逐层获取子标签
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值