python爬取视频网站中video标签的m3u8文件与ts文件

本文介绍了如何使用Python爬取video标签下的m3u8和ts文件,解析m3u8文件,单线程和多线程下载ts片段,解密(如果加密),以及最终合并成完整视频文件。还提到了转换为MP4的ffmpeg工具。
摘要由CSDN通过智能技术生成

网站分析

许多网站使用的都是video加载的视频,无法获得视频的源地址。
在这里插入图片描述
但是通过抓包可以获得两类文件,一类是m3u8,相当于ts文件的索引将不同的ts文件串起来;另一类是很多个ts片段,由这些片段构成我们观看的视频。
在这里插入图片描述
上图的m3u8文件显示的ts文件是未加密的,所以下载下来的ts文件可以直接播放;下载的时候还能注意到这两类文件的是源自同一个上级链接比如https://xxx.com/xxx/index.m3u8和5fd27dde545000000.ts。
在这里插入图片描述
只要将这些文件按顺序拼接为完整的文件就相当于下载成功了,值得注意的是命名格式为5fd27dde545000{}.ts,{}的数字不足3位3位补齐如5fd27dde545000000.ts,大于3位不用补齐如5fd27dde5450001000.ts。

代码

参数配置

为了方便使用,将一些参数单独拿出来作为配置文件。

# 下载必须的配置
URL_BASE = 'https://xxx.com/xxx/{}'  # m3u8文件的链接
PATTERN = 'xxx(\d+).ts' # 提取ts片段索引号的正则
# 下面是多线程需要配置的
TS_BASE = 'xxx{}.ts'
THREAD_NUM = 15 # 线程数
TS_NUM = 347	# ts文件的个数,在index.m3u8中找到最后一个ts是多少就写多少

下载m3u8文件

只有一个下载,比较简单,主要是根据它判断是否有加密

def download_m3u8(url):
    response = requests.get(url)
    file = "./caches/" + url.split("/")[-1]
    with open(file, "w", encoding="utf8") as f:
        f.write(response.text)

加密的话,会多出一行记录加密方式和密钥,没有这一行就没有加密。
在这里插入图片描述

下载ts文件

</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值