前言
大家早好、午好、晚好吖 ❤ ~欢迎光临本文章
环境使用:
-
Python 3.8
-
Pycharm 专业版
模块使用:
-
import requests >>> pip install requests
-
import re 正则表达式 解析数据
-
import json
基本步骤去实现
一. 数据来源分析
-
通过开发者工具进行抓包分析, 分析我们想要采集数据可以请求那个链接地址得到
m3u8格式是什么样的?
会把完整内容, 分割为N个视频片段<ts文件>
所有片段, 都会保存在 m3u8 文件里面
-
找m3u8链接地址 --> 通过搜索直接可以找
二. 代码实现步骤: 基本四大步骤: 发送请求 获取数据 解析数据 保存数据
-
发送请求
-
获取数据
获取: 网页源代码
-
解析数据
提取: 标题 + m3u8链接地址
-
发送请求
请求: m3u8链接地址
-
获取数据
获取: m3u8文件内容
-
解析数据
提取: 所有ts片段
-
保存数据
保存所有片段, 合并成完整内容
代码展示
# 导入数据请求模块 第三方模块, 需要安装 pip install requests
import requests
# 导入正则表达式模块 内置模块
import re
# 导入json
import json
# 导入格式化输出模块
from pprint import pprint
def get_response(html, data=None):
# 伪装浏览器
headers = {
'Referer': 'https://*****',
# User-Agent 用户代理 表示浏览器基本身份信息
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get