M.Jael-CSDN博客

原创以文搜图，多种语言也不成问题（CLIP 支持中文）

简单的代码实现以文搜图，多语言预训练模型，支持中文。

2022-07-20 16:24:21 2715 1

转载【转载】视频理解模型分享

关注【Zilliz Towhee 专栏】，快速了解更多前沿模型。本周一共介绍了5个视频相关的模型“杂食者”Omnivore、“性价比之王”TSM、“进击的纯血”TimeSformer、“回归的高手”VideoSwinTranformer、“国产之光”UniFormer。无论是崛起的新生代，还是与时俱进的OG，总有一款模型为你所爱。...

2022-07-20 14:42:31 862

谷歌在 2017 年公开了大规模音频数据集AudioSet，包含了大约 210 万个长度为 10 秒的声音片段和 527个标签。随即谷歌使用该数据集进行预训练，最终得到 VGGish 模型用于音频的特征提取。Tensorflow 官方 github 收录了 VGGish 的源代码，并且在Tensorflow Hub上提供了用于音频向量化的 VGGish 模型接口。那如何在 Pytorch 框架中实现并使用 VGGish 呢？网上有一些关于 VGGish 在 Pytorch 中的介绍与实现，但我体验下...

2022-01-13 19:39:44 4987 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_52898169的博客

原创以文搜图，多种语言也不成问题（CLIP 支持中文）

转载【转载】视频理解模型分享

原创音频向量：VGGish（Pytorch）

空空如也

空空如也

原创 以文搜图，多种语言也不成问题（CLIP 支持中文）

转载 【转载】视频理解模型分享

原创 音频向量：VGGish（Pytorch）

空空如也

空空如也

原创以文搜图，多种语言也不成问题（CLIP 支持中文）

转载【转载】视频理解模型分享

原创音频向量：VGGish（Pytorch）