论文学习笔记|Multimodal Learning with Deep Boltzmann Machines

摘要:

1、用处:联合多模态的表征进行输出。一种用于学习由多种和多样化输入模态组成的数据生成模型的深度玻尔兹曼机可以抽取一个统一的多模态融合在一起的表征(extract a unified representation that fuses modalities together)。

2、应用:①用于分类和信息抽取(检索)。该模型通过学习多模态输入空间上的概率密度来工作。它使用潜变量的状态作为输入的表示。②某些特征缺失的情况下抽取多模态特征。即使在某些模态缺失的情况下,模型也可以通过从这些模态上的条件分布中采样并填充这些模态来提取这种表示。③在图像、文本进行多模态学习,能学习到很好的一个联合特征的分布,可以学习到一个良好的图像和文本输入联合空间的生成模型,这对于从单模态和多模态查询中进行信息检索都是有用的。

3、结果:比单纯SVMs和LDA要好。与其他深度学习方法进行了比较,包括自动编码器和深度信念网络,并表明其取得了明显的增益。

一、引言Introduction

1、多模态的困难:①在多模态环境下,数据由多个输入模态组成,每个模态具有不同的表征和关联结构。例如,文本通常表示为离散的稀疏单词计数向量,而图像则使用像素强度或特征提取器的输出来表示。发现跨模态之间的关系比发现同一模态中特征之间的关系要困难得多。输入中存在着大量的结构,却很难发现其中存在的高度非线性关系;②这些观测值通常是非常有噪声的;③可能存在缺失值。

2、我们提出的多模态深度玻尔兹曼机( Deep Boltzmann Machine,DBM )模型满足上述要求。DBM是隐藏单元相邻层之间具有二分连接的无向图模型。其核心思想是在多模态输入空间上学习一个联合密度模型。然后,在给定观测模态的情况下,缺失模态可以通过从它们上面的条件分布采样来填充。例如,我们使用大量带有用户标签的图像集合来学习图像和文本的联合分布。通过从P (vtxt | vimg , θ)和P ( vimg | vtxt , θ)中抽取样本,我们可以填充缺失数据,从而分别进行图像标注和图像检索。

3.前人的工作及不足:

从多模态数据中学习已经有几种方法。

(1)判别式

①胡伊斯克斯等研究表明,除了标准的低层图像特征外,使用字幕或标签显著提高了支持向量机( SVM )和线性判别分析( LDA )模型的分类精度。②类似的,吉约曼等基于多核学习框架,进一步证明了增加文本模态可以提高SVM在各种物体识别任务上的准确率

缺点:这些方法本质上都是判别式的,无法利用大量未标记数据或容易处理缺失的输入模态。

(2)生成式

①在生成式方面,Xing等使用双段翼谐波来构建图像和文本的联合模型,该模型可以看作是由高斯隐单元与高斯和泊松可见单元组成的线性RBM模型。

缺点:不同的数据模态通常具有非常不同的统计特性,这使得使用浅层模型对其进行建模变得困难。

4、我们工作的不同之处:与我们的工作最相似的是最近Ngiam等人使用深度自编码器进行语音和视觉融合的方法。DBM与其的几个重要的区别:①我们专注于整合非常不同的数据模态:②稀疏的单词计数向量和实值稠密的图像特征。③我们开发了一个深度玻尔兹曼机作为生成模型,而不是将网络展开并将其作为自编码器进行微调。虽然这两种方法在一些领域都取得了有趣的结果,但使用生成模型对于我们在本文中考虑的应用是很重要的,因为它允许我们的模型自然地处理缺失的数据模态。

二、模型回顾:RBM及其推广RBMs and Their Generalizations

Replicated Softmax模型已被证明

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度多模态学习是一种研究方法,它将多个模态(例如语音、图像、视频等)的信息进行融合和学习。近年来,深度多模态学习取得了许多重要进展和趋势。 在多模态学习中,深度神经网络在特征提取和模态融合方面发挥了重要作用。通过深度网络的层次处理,可以有效地从原始模态数据中提取出高层次的语义特征。同时,多模态数据的融合也成为研究热点。不同模态之间的关联信息可以通过深度多模态网络进行学习和利用,提高了模型的性能。 近年来,深度多模态学习在不同领域取得了一系列重要的研究成果。在自然语言处理领域,多模态问答系统、图像字幕生成和视觉问答等任务得到了广泛研究。在计算机视觉领域,通过融合多个模态的信息,如图像和语音,可以实现更准确的物体识别和行为分析。在语音识别和语音合成领域,多模态学习也被用来提高语音处理的性能。 同时,一些趋势也值得关注。首先,多模态学习的应用正在不断扩展到更多领域,如医疗、机器人和智能交通等。其次,深度多模态学习和其他深度学习技术的结合也被广泛研究,以提高模型的性能和泛化能力。此外,深度多模态学习在大规模数据和计算资源方面的需求也值得关注。 总之,深度多模态学习是一个充满潜力和挑战的研究方向。随着技术的不断发展和应用需求的增加,我们有理由相信,深度多模态学习将在未来发挥更重要的作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值