使用python爬取喜马拉雅音频数据并保存

本文介绍如何使用Python爬取喜马拉雅的音频数据。首先,找到音频页面的真实URL,接着处理反爬机制,尤其是动态生成的sign。通过分析初始页面获取有效的sign,将其加入请求头以成功请求数据。当遇到数据获取失败时,需更新sign以继续爬取。
摘要由CSDN通过智能技术生成

**

使用python爬取喜马拉雅音频数据并保存

**
1.进入喜马拉雅官网,打开要爬取的项目网页,按F12=>F5后进行清空,点击项目网页中播放按钮,出现如下图点击,查找网页的url,获取到网页链接。
在这里插入图片描述
在这里插入图片描述
2.获取大url才是网页真正的链接,但此网站有反扒机制,顾需要通过反扒机制请求头headers来解决反扒,请求头中包含以下两部分:user_agent和xm_sign.在这里插入图片描述
3.但这里的xm_sign并不是固定的,扔拿不到数据,所以需要找到固定的sign才可以,这里需要从喜马拉雅网页的初始页面来查找,扔使用F12=>F5然后清空,点击页面上面的任一播放,出现下图中有sign的才是我们要找的。
在这里插入图片描述
4.将此sign放入请求头headers中技能得到数据,边可轻易爬取到数据,下面附出代码,里面有注释解读&#x

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值