Python爬虫：短视频平台无水印下载！这个操作有点东西！

最新推荐文章于 2024-07-13 14:16:10 发布

爬遍天下无敌手

最新推荐文章于 2024-07-13 14:16:10 发布

阅读量2.8k

点赞数 1

分类专栏： Python 文章标签：字符串 python java 大数据 android

原文链接：https://blog.csdn.net/qq_44700693/article/details/108089085?utm_medium=distribute.pc_category.none-task-blog-hot-5.nonecase&depth_1-utm_source=distribute.pc_category.none-task-blog-hot-5.nonecase&request_id=

版权

Python 专栏收录该内容

1018 篇文章 168 订阅

订阅专栏

导入：

虽然目前有些软件还没适配，但是，我发了 Blink 后有一写人留言或者私信找我要源码，不过我还在增加适配的软件，所以还没有时间写这篇博客，今天呢，就先把我目前适配了的代码拿出来，后续还会继续适配的！

分平台解释：

皮皮搞笑

皮皮搞笑与皮皮虾很类似，也是先获取分享链接，在电脑端进行分析：

抓包分析

我们可以很容易的在抓包资源 HXR 中找到某一固定的链接： https://h5.ippzone.com/ppapi/share/fetch_content，在该链接中的 video 字段可以看到有两个链接，分别打开尝试一下可以发现：后缀含有 wm 的链接是含有水印的视频，另一个则是我们的目标链接了，但是我们又发现，在 video 字段下，还有一个全是数字的字符串，我们在当前 json文件中搜索额可以发现：

在上一个标签 img 下，有一个 id 字段，和字符串标签一样。
知道了视频链接的存放位置和获取方式，接下来开始分析请求：

在尝试过几次抓包后发现，请求 URL 始终都没有变化，只是下面的 请求负载 有所变化，第三个参数 post 默认不变就好，至于前两个参数，都在分享链接跳转的链接中：

https://h5.ippzone.com/pp/post/350259149175?zy_to=copy_link&share_count=1&m=0cd13da8548a1bc85813d8c60d331e22&app=&type=post&did=d2bddf23159ae495&mid=1270840711117&pid=350259149175

源码及结果

一切准备工作做好后，开始编写代码：

class PPGX():  # 皮皮搞笑
    def __init__(self, url):
        s_url = url
        self.headers = {
            'Host': 'share.ippzone.com',
            'Origin': 'http://share.ippzone.com',
            'Referer': s_url,
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.52'
        }
        self.JSON = {
            "pid": int(str(s_url).split('=')[-1]),
            "mid": int(str(s_url).split('&')[-2].split('=')[-1]),
            "type": "post"
        }

    def ppgx_download(self):
        URL = 'http://share.ippzone.com/ppapi/share/fetch_content'
        r = requests.post(URL, proxies=proxy, headers=self.headers, json=self.JSON)
        video_name = r.json()['data']['post']['content'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = r.json()['data']['post']['videos'][str(r.json()['data']['post']['imgs'][0]['id'])]['url']
        video = requests.get(video_url, proxies=proxy).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【皮皮搞笑】: {}.mp4 无水印视频下载完成！".format(video_name))

结果：

抖音 / 抖音极速版

接下来以抖音为例（抖音极速版的解析方式和抖音相同）：
同样的思路，拿到分享链接到电脑浏览器中抓包分析：

拿到如下信息：
摆摊的第二天……#架子鼓演奏 #架子鼓 #乐器 #听心 https://v.douyin.com/JMKHkqt/ 复制此链接，打开【抖音短视频】，直接观看视频！
所以为了方便，使用正则表达式来提取该内容中的链接：
url = re.findall('(https?://[^\s]+)', s_url)[0] # 正则提取字符串中的链接

抓包分析

我们可以在抓包资源 HXR 中找到某一请求，在该 json 文件中 play_addr 字段下可以找到视频链接，用浏览器打开：

该链接跳转到了视频是没错，不过直接跳转到了又水印的链接上，这就有点卡住了。
不过，按照皮皮搞笑的链接区分来看， wm 是含有水印的视频的话。

https://aweme.snssdk.com/aweme/v1/playwm/?video_id=v0200f750000bsegsdpphaglno4mqd8g&ratio=720p&line=0

当我们删掉链接中的 wm 字段后：

没有加载？？？？？？？ 而且我们可以发现链接根本都还没有跳转。
但是： 当我们把设备切换为手机时：链接跳转到了无水印的视频链接：

代码及结果

当一切都分析完后，开始编写代码：
注意： 当我们去掉 wm 字段后，下载视频时，需要带上模拟手机端的请求头！

class DY():  # 抖音
    headers = {  # 模拟手机端
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接

    def dy_download(self):
        rel_url = str(requests.get(self.url, proxies=proxy, headers=self.headers).url)
        if 'video' == rel_url.split('/')[4]:
            URL = 'https://www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids=' + rel_url.split('/')[5] + '&dytk='
            r = requests.get(URL, proxies=proxy, headers=self.headers)
            video_url = r.json()['item_list'][0]['video']['play_addr']['url_list'][0].replace('/playwm/', '/play/')
            video_name = r.json()['item_list'][0]['share_info']['share_title'].split('#')[0].split('@')[0].replace(' ','')
            if video_name == '':
                video_name = int(random.random() * 2 * 1000)
            if len(str(video_name)) > 20:
                video_name = video_name[:20]
            video = requests.get(video_url, proxies=proxy, headers=self.headers).content
            with open(path + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
            print("【抖音短视频】: {}.mp4 无水印视频下载完成！".format(video_name))成！".format(video_name))

结果：由于抖音和抖音极速版的分享内容是一样的，无法分辨哪个平台，所以统一输出。

但是： 我发现抖音没事就爱搞幺蛾子，有时分享链接是上文所示：
有时又是一段原链接…所以我，做了一点小小的优化：

小优化：

if 'www.iesdouyin.com' in self.s_url:
    print("【抖音短视频】: {}.mp4 无水印视频下载完成！".format(video_name))
if 'v.douyin.com' in self.s_url:
    print("【抖音短视频/抖音极速版】: {}.mp4 无水印视频下载完成！".format(video_name))
1234

腾讯微视

套路依旧，获取分享链接：

拿到链接：

上不上班无所谓，主要是想蹦迪>>https://h5.weishi.qq.com/weishi/feed/6XSB277Nr1K5nIKb6/wsfeed?wxplay=1&id=6XSB277Nr1K5nIKb6&spid=8813798054214369280&qua=v1_and_weishi_8.0.6_588_312028000_d&chid=100081014&pkg=3670&attach=cp_reserves3_1000370011

抓包及分析

注意： 这里是一个写爬虫的常用思路：将设备切换为手机，因为相对于电脑端，手机端的健壮性没有电脑端好，所以很多东西都可以通过这种方式来抓取，就如这个例子：

未切换：

已切换：

依次检查请求后发现：链接也就摆放在 json 数据中。
那么，接下来直接分析请求：

对于 请求负载 中的参数，我们可以直接在请求链接中截取：

https://h5.weishi.qq.com/weishi/feed/6XSB277Nr1K5nIKb6/wsfeed?wxplay=1&id=6XSB277Nr1K5nIKb6&spid=8813798054214369280&qua=v1_and_weishi_8.0.6_588_312028000_d&chid=100081014&pkg=3670&attach=cp_reserves3_1000370011

其他的参数默认就好，而至于请求链接，同一个视频刷新几次，参数 t 就有多少个值：

https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t=0.764612279656077&g_tk=
https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t=0.3168301677339891&g_tk=
https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t=0.8888910469548954&g_tk=
…

而且，有时候长度都不一样，这就把我吓到了！什么加密？这么复杂！
既然同一个视频每次刷新都不一样，是不是跟时间戳有关系？？？但是这明显不是啊！
正在我为这个参数发愁时，我也不知道我当时是怎么想的，无聊，随机修改了参数 t 的几个数字发现，仍然能够获取到视频！！！！！！！
然后我发现：所有的数全是在 0—1 之间变化，我用Python的 random 产生了一组随机数来看：

import random
print(random.random())

#  结果：
#  0.5890812460827893

我都惊呆了！！就是这种数据啊！我用这个随机数去请求时，结果居然是可行的，这…

居然误打误撞的给破解了…

代码及结果

class TXWS():  # 腾讯微视
    headers = {  # 模拟手机端
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接
        self.data = {
            'datalvl': "all",
            'feedid': str(self.url).split('/')[5],
            'recommendtype': '0',
            '_weishi_mapExt': '{}'
        }

    def txws_download(self):  # 参数 t 为随机数
        url = 'https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t={}&g_tk='.format(random.random())
        r = requests.post(url, proxies=proxy, headers=self.headers, data=self.data)
        video_name = r.json()['data']['feeds'][0]['feed_desc'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = r.json()['data']['feeds'][0]['video_url']
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【腾讯微视】: {}.mp4 无水印视频下载完成！".format(video_name))

结果：

开眼 Eyepetizer

虽然开眼下载的视频，并没有水印，但是下载好的视频只能在软件内观看，但是我还是想让它下载到它该下载的地址：
套路，套路，还是套路：

抓包分析

还是很简单的，没什么反爬机制，很容易就会找到了视频的下载地址，接下来直接分析请求：

请求链接中只有几个数字需要解析，但是我们发现，它就出现在分享链接中：

https://www.eyepetizer.net/detail.html?vid=208234&utm_campaign=routine&utm_medium=share&utm_source=others&uid=0&resourceType=video&udid=c65aab71b05749d584eac4ee7944bb6274e17596&vc=6030061&vn=6.3.6&size=1080X2070&deviceModel=9&first_channel=xiaomi&last_channel=xiaomi&system_version_code=27

代码及结果

class KY_Eyepetizer():  # 开眼
    def __init__(self, url):
        self.vid = str(url).split('=')[1].split('&')[0]
        self.headers = {
            'origin': 'https://www.eyepetizer.net',
            'referer': url,
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.58'
        }

    def ky_download(self):
        url = 'https://baobab.kaiyanapp.com/api/v1/video/{}?f=web'.format(self.vid)
        r = requests.get(url, proxies=proxy, headers=self.headers)
        video_name = r.json()['title'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = r.json()['playUrl']
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【开眼 Eyepetizer】: {}.mp4 无水印视频下载完成！".format(video_name))

还有其他的短视频教程就先不上传了篇幅限制需要完整的资料就加群：1136192749

爬遍天下无敌手

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：短视频平台无水印下载！这个操作有点东西！

导入：虽然目前有些软件还没适配，但是，我发了Blink后有一写人留言或者私信找我要源码，不过我还在增加适配的软件，所以还没有时间写这篇博客，今天呢，就先把我目前适配了的代码拿出来，后续还会继续适配的！分平台解释：皮皮搞笑皮皮搞笑与皮皮虾很类似，也是先获取分享链接，在电脑端进行分析：抓包分析我们可以很容易的在抓包资源HXR中找到某一固定的链接：https://h5.ippzone.com/ppapi/share/fetch_content，在该链接中的video...
复制链接

扫一扫

专栏目录