2021-05-20

最新推荐文章于 2021-05-26 14:46:32 发布

weixin_58051802

最新推荐文章于 2021-05-26 14:46:32 发布

阅读量55

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58051802/article/details/117092546

版权

本文介绍了网页数据解析的基本原理，重点讲解了使用BeautifulSoup库进行数据提取的方法。首先，通过实例化BeautifulSoup对象加载HTML页面源码，然后利用find_all、find等方法进行标签定位。此外，还详细阐述了如何通过select选择器进行层级和多层级的选择，以及如何获取标签内的文本和属性值。通过对这些方法的掌握，可以高效地解析和提取网页中的数据。

摘要由CSDN通过智能技术生成

bs4进行数据解析

数据解析的原理
1. 标签定位
2. 提取标签，标签属性中存储的数据值

bs4数据解析的原理
1. 实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中
2. 通过调用BeautifulSoup中对象中相关的属性或者方法进行标签定位和数据提取

如何实例化BeautifulSoup对象:
- 提供的用于数据解析的方法和属性：
  - soup.tagName：返回的是文档中第一次出现的tagName对应的标签
  - soup.find_all('tagName'):返回符合要求的所有标签
  - soup.find():
    - find('tagName'):等同于soup.div
    - 属性定位:
      - soup.find('div',class_/id/attr='song')
- select:
  - select('某种选择器（id，class，标签...选择器')），返回的是一个列表
    
    层级选择器：
    - soup.select('.tang > ul > li > a'):>表示的是一个层级
    - oup.select('.tang > ul 空格 a')：空格表示多个层级
- 可以获取标签之间的文本数据：
  - soup.a.text/string/get_text()
  - text/get_text():可以获取某一个标签中所有的文本内容
  - string:只可以获取该标签下面直系的文本内容
- 获取标签中的属性值：
  - soup.a['href']

weixin_58051802

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。