python爬取视频网站中video标签的m3u8文件与ts文件

最新推荐文章于 2024-08-21 14:21:18 发布

喜欢coding的谢同学

最新推荐文章于 2024-08-21 14:21:18 发布

阅读量5.2k

点赞数 2

分类专栏：爬虫 # 实战

本文链接：https://blog.csdn.net/weixin_44112790/article/details/104197863

版权

本文介绍了如何使用Python爬取video标签下的m3u8和ts文件，解析m3u8文件，单线程和多线程下载ts片段，解密（如果加密），以及最终合并成完整视频文件。还提到了转换为MP4的ffmpeg工具。

摘要由CSDN通过智能技术生成

网站分析

许多网站使用的都是video加载的视频，无法获得视频的源地址。
在这里插入图片描述
但是通过抓包可以获得两类文件，一类是m3u8，相当于ts文件的索引将不同的ts文件串起来；另一类是很多个ts片段，由这些片段构成我们观看的视频。

上图的m3u8文件显示的ts文件是未加密的，所以下载下来的ts文件可以直接播放；下载的时候还能注意到这两类文件的是源自同一个上级链接比如https://xxx.com/xxx/index.m3u8和5fd27dde545000000.ts。
在这里插入图片描述
只要将这些文件按顺序拼接为完整的文件就相当于下载成功了，值得注意的是命名格式为5fd27dde545000{}.ts，{}的数字不足3位3位补齐如5fd27dde545000000.ts，大于3位不用补齐如5fd27dde5450001000.ts。

代码

参数配置

为了方便使用，将一些参数单独拿出来作为配置文件。

# 下载必须的配置
URL_BASE = 'https://xxx.com/xxx/{}'  # m3u8文件的链接
PATTERN = 'xxx(\d+).ts' # 提取ts片段索引号的正则
# 下面是多线程需要配置的
TS_BASE = 'xxx{}.ts'
THREAD_NUM = 15 # 线程数
TS_NUM = 347	# ts文件的个数，在index.m3u8中找到最后一个ts是多少就写多少

下载m3u8文件

只有一个下载，比较简单，主要是根据它判断是否有加密

def download_m3u8(url):
    response = requests.get(url)
    file = "./caches/" + url.split("/")[-1]
    with open(file, "w", encoding="utf8") as f:
        f.write(response.text)

加密的话，会多出一行记录加密方式和密钥，没有这一行就没有加密。
在这里插入图片描述