网站分析
许多网站使用的都是video加载的视频,无法获得视频的源地址。
但是通过抓包可以获得两类文件,一类是m3u8,相当于ts文件的索引将不同的ts文件串起来;另一类是很多个ts片段,由这些片段构成我们观看的视频。
上图的m3u8文件显示的ts文件是未加密的,所以下载下来的ts文件可以直接播放;下载的时候还能注意到这两类文件的是源自同一个上级链接比如https://xxx.com/xxx/index.m3u8和5fd27dde545000000.ts。
只要将这些文件按顺序拼接为完整的文件就相当于下载成功了,值得注意的是命名格式为5fd27dde545000{}.ts,{}的数字不足3位3位补齐如5fd27dde545000000.ts,大于3位不用补齐如5fd27dde5450001000.ts。
代码
参数配置
为了方便使用,将一些参数单独拿出来作为配置文件。
# 下载必须的配置
URL_BASE = 'https://xxx.com/xxx/{}' # m3u8文件的链接
PATTERN = 'xxx(\d+).ts' # 提取ts片段索引号的正则
# 下面是多线程需要配置的
TS_BASE = 'xxx{}.ts'
THREAD_NUM = 15 # 线程数
TS_NUM = 347 # ts文件的个数,在index.m3u8中找到最后一个ts是多少就写多少
下载m3u8文件
只有一个下载,比较简单,主要是根据它判断是否有加密
def download_m3u8(url):
response = requests.get(url)
file = "./caches/" + url.split("/")[-1]
with open(file, "w", encoding="utf8") as f:
f.write(response.text)
加密的话,会多出一行记录加密方式和密钥,没有这一行就没有加密。