Py爬虫学习笔记:Beautiful Soup实战——认识Beautiful Soup

这篇博客介绍了Python的Beautiful Soup库,用于HTML和XML数据的提取。内容包括库的环境安装,通过pip安装beautifulsoup4,以及一段简单的代码演示,展示了如何使用Beautiful Soup的get_text方法去除标签获取文本内容。
摘要由CSDN通过智能技术生成

Beautiful Soup

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库

环境安装

使用pip install beautifulsoup4

代码演示

尝试使用一段简单的代码讲解Beautiful Soup的使用

from bs4 import BeautifulSoup # 1. 引入BeautifulSoup解析库

html = """
<html>
  <head>
    <title>优课达</title>
  </head>
  <body>
    <a href="https://www.youkeda.com" alt="学得比别人好一点">优课达</a>
    <ul>
      <li><a href="https://www.youkeda.com">问吧</a></li>
      <li><a href="https://www.youkeda.com/academy/java">研发学院</a></li>
      <li><a href="https://www.youkeda.com/academy/python/P2">Python学院</a></li>
      <li><a href="https://www.youkeda.com/app">APP下载</a></li>
    </ul>
  </body>
</html>
"""

# 2. 用html.parser的规则解析html
result = BeautifulSoup(html, 'html.parser')

# 3. 打印网页的title
print(result.title)

结果为<title>优课达</title>
使用get_text可以去除<title>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值