简介
我们知道,一个网页是由HTML文档组成的,HTML文档是一种结构化的文档,有一定的规则,通过它的结构可以简化信息提取。
我的理解就是:将一段HTML文档通过 BeautifulSoup()构造方法
解析成一个对象,然后对这个对象进行操作。
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。取名来自 《爱丽丝梦游仙境》 ,下面的代码来自官方文档,是 《爱丽丝梦游仙境》 中的一段内容。
使用BeautifulSoup解析这段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.prettify())
# 输出
# <html>
# <head>
# <title>
# The Dormouse's story
# </title>
# </head>
# <body>
# <p class="title">
# <b>
# The Dormouse's story
# </b>
# </p>
# <p class="story">
# Once upon a time there were three little sisters; and their names were
# <a class="sister" href="http://example.com/elsie" id="link1">
# Elsie
# </a>
# ,
# <a class="sister" href="http://example.com/lacie" id="link2">
# Lacie
# </a>
# and
# <a class="sister" href="http://example.com/tillie" id="link2">
# Tillie
# </a>
# ; and they lived at the bottom of a well.
# </p>
# <p class="story">
# ...
# </p>
# </body>
# </html>
几个简单的浏览结构化数据的方法:
soup.title
# <title>The Dormouse's story</title>
soup.title.name