ImageBind:一种学习跨六种不同模态的方法

介绍

Meta提出的ImageBind是一种学习跨六种不同模态(图像、文本、音频、深度、热和IMU数据)联合嵌入的方法。它实际上利用了大规模视觉语言模型,并通过与图像配对将零样本功能扩展到一种新的模态。
在这里插入图片描述

人天生具有多种感官,能同时感受到视觉、听觉、触觉。同时人的记忆也存在多种感受的记忆,望梅止渴,通过视觉引发味觉感受。

多模态的模型意图是训练一个具有多种类型输入的模型,并且能够输出对多重感官带来的知觉。

涉及到的一个关键问题是数据的标注和对其问题,需要输入多类型的数据,标注是个难题,ImageBind的方法是以图片数据作为核心数据,其他的数据与其对其,这样就解决了多种数据之间的对其问题。

文字在模型的训练过程中扮演者重要角色,文字可以作为提示词存在,并且问题包含的信息是显示的,明确的。

论文中提出模型在训练后,在one-shot的不同测试中,表现出乎意料。即使只使用对(I,M1)和(I,M2)进行训练,在嵌入空间中观察到对齐两对模态(M1,M2)的突发行为。【I 代表image, M 代表其他模态数据】,这一发现实现了未标注信息的对齐,对于模型高级功能的训练具有重要意义,减少了数据标注的工作量。

在这里插入图片描述

输入的数据包括深度,这是一个特别的地方,不是简单的2维图片,增加模型的感知维度。

模型的输入可以是多种数据的叠加,输出也是多样的,例如输入图像和声音,输出图像,输入声音输出图像。

由于输入是轻量级标注输入,模型的功能显得更加强大。

来源

官网项目介绍:
https://imagebind.metademolab.com/demo

用法

图片生成音频

在这里插入图片描述

音频+图片生成图片

在这里插入图片描述

体会

论文中还提出,模型的这种功能类似翻译的功能,翻译模型能对没有见过的语句进行翻译。
后续的研究中应该会出现更多one-shot能力强大的模型,同时模型的多重感知能力会远超人类。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Miracle&Elephant

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值