Python采集某xsp内容, m3u8视频内容下载

最新推荐文章于 2024-01-19 16:33:47 发布

「已注销」

最新推荐文章于 2024-01-19 16:33:47 发布

阅读量376

点赞数 1

分类专栏：爬虫小案例文章标签： python 音视频开发语言 pycharm 学习

本文链接：https://blog.csdn.net/weixin_62853513/article/details/131329021

版权

本文介绍了如何使用Python进行网络抓包，分析数据来源，特别是针对m3u8格式视频的下载。通过讲解环境配置、所需模块、基本步骤和代码实现，详细阐述了如何发送请求获取m3u8链接，解析文件提取ts片段，并最终合并成完整视频内容。

摘要由CSDN通过智能技术生成

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

环境使用:

Python 3.8
Pycharm 专业版

模块使用:

import requests >>> pip install requests
import re 正则表达式解析数据
import json

基本步骤去实现

一. 数据来源分析

通过开发者工具进行抓包分析, 分析我们想要采集数据可以请求那个链接地址得到

m3u8格式是什么样的?

会把完整内容, 分割为N个视频片段<ts文件>

所有片段, 都会保存在 m3u8 文件里面
找m3u8链接地址 --> 通过搜索直接可以找

二. 代码实现步骤: 基本四大步骤: 发送请求获取数据解析数据保存数据

发送请求
获取数据

获取: 网页源代码
解析数据

提取: 标题 + m3u8链接地址
发送请求

请求: m3u8链接地址
获取数据

获取: m3u8文件内容
解析数据

提取: 所有ts片段
保存数据

保存所有片段, 合并成完整内容

代码展示

# 导入数据请求模块 第三方模块, 需要安装 pip install requests
import requests
# 导入正则表达式模块 内置模块
import re
# 导入json
import json
# 导入格式化输出模块
from pprint import pprint


def get_response(html, data=None):
    # 伪装浏览器
    headers = {
   
        'Referer': 'https://*****',
        # User-Agent 用户代理 表示浏览器基本身份信息
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
    }
    # 发送请求
    response = requests.get