环境使用
Python 3.10
Pycharm
模块使用
requests -> pip install requests
tqdm -> pip install tqdm (进度条)
re (内置模块无需安装)
实现的基本流程
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
网址:https://v.qq.com/x/cover/mzc002006n62s11/e0045s2g2eg.html
数据: 视频内容
2.抓包分析
通过浏览器开发者工具分析对应的数据位置
- 打开开发者工具
- F12 / 右键点击检查选择 network (网络)
- 刷新网页,让本网页的数据内容重新加载一遍通过关键字搜索找到对应数据位置关键字: m3u8进行搜索查找数据位置
二、关于视频数据抓包分析
开发者工具 -> 网络 -> 媒体 -> 查看到对应视频链接地址
- 再以链接中一段参数为了关键字进行搜索
- 开发者工具 -> 网络 -> 媒体 -> 并没有发现视频链接地址
- 开发者工具 -> 网络 -> 全部数据 -> 某些特定链接地址 (xxx.ts)
- 关键字就以m3u8进行搜索查找把完整的视频内容, 分割成N个是片段(ts链接), 所有视频片段都存在于m3u8文件中。
三、代码实现
1.发送请求
模拟浏览器对于url地址发送请求
import requests
headers = {
# Referer 防盗链, 告诉服务器请求网址是从哪里跳转过来
'Referer':'https://v.qq.com/', # 一般情况如果你遇到403加防盗链大概率是可以的
# Use