Beautiful Soup
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库
环境安装
使用pip install beautifulsoup4
代码演示
尝试使用一段简单的代码讲解Beautiful Soup的使用
from bs4 import BeautifulSoup # 1. 引入BeautifulSoup解析库
html = """
<html>
<head>
<title>优课达</title>
</head>
<body>
<a href="https://www.youkeda.com" alt="学得比别人好一点">优课达</a>
<ul>
<li><a href="https://www.youkeda.com">问吧</a></li>
<li><a href="https://www.youkeda.com/academy/java">研发学院</a></li>
<li><a href="https://www.youkeda.com/academy/python/P2">Python学院</a></li>
<li><a href="https://www.youkeda.com/app">APP下载</a></li>
</ul>
</body>
</html>
"""
# 2. 用html.parser的规则解析html
result = BeautifulSoup(html, 'html.parser')
# 3. 打印网页的title
print(result.title)
结果为<title>优课达</title>
使用get_text可以去除<title>
这篇博客介绍了Python的Beautiful Soup库,用于HTML和XML数据的提取。内容包括库的环境安装,通过pip安装beautifulsoup4,以及一段简单的代码演示,展示了如何使用Beautiful Soup的get_text方法去除标签获取文本内容。
543

被折叠的 条评论
为什么被折叠?



