python-下载某短视频平台视频(高清无水印)

python-下载某短视频平台音视频(高清无水印)


前言

1、Cookie中文名称为小型文本文件,指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密)。

2、有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。

3、dy核心的cookies是sessionID值, 可嵌套到接口的headers里的Cookie里进行请求。

1、获取视频 url

在网页端找一个视频,点击进入详情,页面中地址栏里就是该视频的 url 。
手机端复制url后,先粘到浏览器地址栏访问,url 会自动转换,这时候复制地址栏的 url 即可。

2、发送请求

接下来就是简单的发送请求,唯一需要注意的一点就是 headers 中除了要配置 UA 外,还要配置 cookie 信息,否则拿不到想要的数据。

配置好 headers 之后,发送 get 请求,拿到页面源码数据

data = requests.get(url=url, headers=headers)
data.encoding = 'utf-8'
data = data.text

3、数据解析

在页面源码数据中有很长一串数据是经过 url 编码的,而我们需要的数据都在这串数据中,因此我们需要拿到这串数据。通过正则表达式定位并取出这串数据,然后调用 requests 模块下的工具包 utils 里的 unquote 方法解码这串数据(得到的是 string 类型的数据),代码如下:

data_en = re.findall('<script id="RENDER_DATA" type="application/json">(.*?)</script></head><body >',data)[0]
data_all = requests.utils.unquote(data_en)

后面就是经典的资源定位了,我们先来说视频下载,先在数据中找到视频的url,会发现有两个
在这里插入图片描述
经过我的测试,第一个url的视频带有水印,而第二个没有,这个根据自己的需要选择就行,只是改个索引的问题,我这里选择第二个无水印的,编写正则表达式将其取出

video_url = 'https:' + re.findall('"playAddr":\[{"src":".*?{"src":"(.*?)"}]',data_all)[0]

4、本地保存

持久化存储,python本地保存视频

#保存
if not os.path.exists(r'C:\video'):
    os.mkdir(r'C:\video')
video_content = requests.get(url=video_url, headers=headers).content
with open(r'C:\video\title.mp4', 'wb+') as f:
    f.write(video_content)

5、完整代码

import requests, re, os

url = ""
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36',
    'cookie': ''
}

data = requests.get(url=url, headers=headers)
data.encoding = 'utf-8'
data = data.text
# print(data)
data_en = re.findall('<script id="RENDER_DATA" type="application/json">(.*?)</script>', data)[0]
data_all = requests.utils.unquote(data_en)

# 视频url
video_url = 'https:' + re.findall('"playAddr":\[{"src":".*?{"src":"(.*?)"}]', data_all)[0]
print(video_url)

# 评论
comments = re.findall("\"comments\":\[(.*?)],\"consumerTime\":", data_all)
print(comments)

# 标题
title = re.findall('"desc":"(.*?)","authorUserId"', data_all)[0].replace(' ', '')
print('-----------------------------------------------------------------------------------------')
print(title)

#保存
if not os.path.exists(r'C:\video'):
    os.mkdir(r'C:\video')
video_content = requests.get(url=video_url, headers=headers).content
with open(r'C:\video\title.mp4', 'wb+') as f:
    f.write(video_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百里 Jess

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值