图像、视频、3D 数据一把抓，不挑食的 AI 模型 Omnivore

Zilliz Planet

已于 2022-07-12 16:39:17 修改

阅读量354

点赞数

分类专栏： Towhee 文章标签：数据库 ai

于 2022-07-11 18:06:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44839084/article/details/125726977

版权

Towhee 专栏收录该内容

48 篇文章 29 订阅

订阅专栏

出品人：Towhee 技术团队

厌烦了不同数据要用不同的模型？是否想过用一个模型就能处理不同模态的数据？终于，在 2022 年初 Meta AI 推出了 “杂食者” Omnivore，一个模型搞定不同视觉模态数据，可以对图像、视频、3D数据进行分类。Omnivore 不仅兼容多种类型的数据，在不同任务的数据集上也都名列前茅。Omnivore 在图像分类数据集 ImageNet 上能达到 86.0% 精度；在用于动作识别的 Kinetics 数据集上能达到 84.1% 精度；在用于单视图3D场景分类的 SUN RGB-D 数据集上，精度也高达 67.1% 。

Omnivore: Multiple visual modalities

Omnivore 将不同视觉模态的数据都转换成通用的向量格式，然后利用 Transformer 特有的灵活性，针对不同模态的分类任务进行联合训练。无论是从头训练，还是对预训练模型进行微调，只要使用 Omnivore 和现成的标准数据集，就能让其性能达到甚至超越对应的单模型。

参考资料：

模型用例：action-classification/omnivore

论文地址：OMNIVORE: A Single Model for Many Visual Modalities

更多资料：Facebook AI 推出“超级模型”：搞定图像、视频和3D数据三大分类任务，性能不输独立模型

更多项目更新及详细内容请关注我们的项目，您的关注是我们用爱发电的强大动力，欢迎 star, fork, slack 三连 :)

zilliz用户交流

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
图像、视频、3D 数据一把抓，不挑食的 AI 模型 Omnivore

一个模型搞定不同视觉模态数据，可以对图像、视频、3D数据进行分类
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。