文章内容
举例说明用Beautufulsoup4库解析提取出某个网页特定标签下信息的常用用法。
参考资料:Beautifulsuop4文档
我们都知道一个网页其实就是一段html(超文本语言)代码,每一块内容都在特定的标签Tag下充实它的骨骼,而css样式表就像它的外衣去修饰它表现形式。而我们爬虫解析网页原理无非是根据http协议用一个request请求访问对方服务器获取目标网页的html代码,然后解析这段html代码去获得我们想要的信息。所以我们解析网页过程实际上就是先根据该网页html代码编辑特点,先定位到我们想要信息的html标签下,然后获取想要的值。
所以我们在用bs4库解析网页内容,获取特定信息时分两个步骤:
- 定位到特定目标信息的子标签
- 获取目标内容属性值
接下来通过举例:解析获取某新闻网页的标题,来说明如何使用bs4库。
如何定位到目标信息的子标签
如果这个标签或者类名只出现一次:
直接通过find_all(),或者select找到那个Tag(标签)或者类名。
print('title:',soup.find_all('h2')[0].string)
所以如果抽取目标信息的那一层的标签或者类名不唯一时,我会向上找到唯一父辈标签和类名,在向下逐层表示。
其他的时候
常用的三种不同方式去获取该网页的标题:
通过find_all()方法的attrs参数定义一个字典参数来搜索包含特殊属性的
print('title:',soup.find_all(attrs={"class":"list_2_l44"})[0].h2.string)
通过find_all()按CSS搜索
按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误.从Beautiful Soup的4.1.1版本开始,可以通过 class_ 参数搜索有指定CSS类名的tag
print('title:',soup.find_all("div",class_="list_2_l44")[0].h2.string)
CSS选择器select:通过css类名,tag标签逐层寻找
Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html , 在Tag或 BeautifulSoup 对象的 .select() 方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:
print('title:', soup.select('.list_2_l44 h2')[0].string)
注意,这里select里传入字符串参数的规则是:
-
类名前面需要+
.
,同时如果同一层类名里有空格需要用.
隔开,子层用空格隔开。 -
id
前面需要+#
。 -
Tag 标签直接使用标签名。
以上三种方法,我认为最好用以及推荐是第三种CSS选择器。
详见下面:
CSS选择器¶
Beautiful Soup支持大部分的CSS选择器 http://www.w3.org/TR/CSS2/selector.html [6] , 在 Tag
或 BeautifulSoup
对象的 .select()
方法中传入字符串参数, 即可使用CSS选择器的语法找到tag:
soup.select("title")
# [<title>The Dormouse's story</title>]
soup.select(“p:nth-of-type(3)”)
# [<p class=“story”>…</p>]
通过tag标签逐层查找:
soup.select("body a")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
soup.select(“html head title”)
# [<title>The Dormouse’s story</title>]
找到某个tag标签下的直接子标签 [6] :
soup.select("head > title")
# [<title>The Dormouse's story</title>]
soup.select(“p > a”)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]
soup.select(“p > a:nth-of-type(2)”)
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]
soup.select(“p > #link1”)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>]
soup.select(“body > a”)
# []
找到兄弟节点标签:
soup.select("#link1 ~ .sister")
# [<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
soup.select("#link1 + .sister")
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]
通过CSS的类名查找:
soup.select(".sister")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
soup.select("[class~=sister]")
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]
通过tag的id查找:
soup.select("#link1")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
soup.select(“a#link2”)
# [<a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>]
同时用多种CSS选择器查询元素:
soup.select("#link1,#link2")
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]
通过是否存在某个属性来查找:
soup.select('a[href]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]
通过属性的值来查找:
soup.select('a[href="http://example.com/elsie"]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]
soup.select(‘a[href^=“http://example.com/”]’)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>,
# <a class=“sister” href=“http://example.com/lacie” id=“link2”>Lacie</a>,
# <a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]
soup.select(‘a[href$=“tillie”]’)
# [<a class=“sister” href=“http://example.com/tillie” id=“link3”>Tillie</a>]
soup.select(‘a[href*=".com/el"]’)
# [<a class=“sister” href=“http://example.com/elsie” id=“link1”>Elsie</a>]
通过语言设置来查找:
multilingual_markup = """
<p lang="en">Hello</p>
<p lang="en-us">Howdy, y'all</p>
<p lang="en-gb">Pip-pip, old fruit</p>
<p lang="fr">Bonjour mes amis</p>
"""
multilingual_soup = BeautifulSoup(multilingual_markup)
multilingual_soup.select('p[lang|=en]')
# [<p lang="en">Hello</p>,
# <p lang="en-us">Howdy, y'all</p>,
# <p lang="en-gb">Pip-pip, old fruit</p>]
返回查找到的元素的第一个
soup.select_one(".sister")
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
对于熟悉CSS选择器语法的人来说这是个非常方便的方法.Beautiful Soup也支持CSS选择器API, 如果你仅仅需要CSS选择器的功能,那么直接使用 lxml
也可以, 而且速度更快,支持更多的CSS选择器语法,但Beautiful Soup整合了CSS选择器的语法和自身方便使用API.
定位到后如何获取属性值
当使用find_all()
或者select()
函数获取到所有满足条件的标签时返回是一个list集合,取单个Beautifulsoup
类型对象后,有两种不同类型属性值获取方式:
- 用
['attrs']
取标签里的属性值: - 用
.
获取逐层获取子标签