摘要:
1、用处:联合多模态的表征进行输出。一种用于学习由多种和多样化输入模态组成的数据生成模型的深度玻尔兹曼机可以抽取一个统一的多模态融合在一起的表征(extract a unified representation that fuses modalities together)。
2、应用:①用于分类和信息抽取(检索)。该模型通过学习多模态输入空间上的概率密度来工作。它使用潜变量的状态作为输入的表示。②某些特征缺失的情况下抽取多模态特征。即使在某些模态缺失的情况下,模型也可以通过从这些模态上的条件分布中采样并填充这些模态来提取这种表示。③在图像、文本进行多模态学习,能学习到很好的一个联合特征的分布,可以学习到一个良好的图像和文本输入联合空间的生成模型,这对于从单模态和多模态查询中进行信息检索都是有用的。
3、结果:比单纯SVMs和LDA要好。与其他深度学习方法进行了比较,包括自动编码器和深度信念网络,并表明其取得了明显的增益。
一、引言Introduction
1、多模态的困难:①在多模态环境下,数据由多个输入模态组成,每个模态具有不同的表征和关联结构。例如,文本通常表示为离散的稀疏单词计数向量,而图像则使用像素强度或特征提取器的输出来表示。发现跨模态之间的关系比发现同一模态中特征之间的关系要困难得多。输入中存在着大量的结构,却很难发现其中存在的高度非线性关系;②这些观测值通常是非常有噪声的;③可能存在缺失值。
2、我们提出的多模态深度玻尔兹曼机( Deep Boltzmann Machine,DBM )模型满足上述要求。DBM是隐藏单元相邻层之间具有二分连接的无向图模型。其核心思想是在多模态输入空间上学习一个联合密度模型。然后,在给定观测模态的情况下,缺失模态可以通过从它们上面的条件分布采样来填充。例如,我们使用大量带有用户标签的图像集合来学习图像和文本的联合分布。通过从P (vtxt | vimg , θ)和P ( vimg | vtxt , θ)中抽取样本,我们可以填充缺失数据,从而分别进行图像标注和图像检索。
3.前人的工作及不足:
从多模态数据中学习已经有几种方法。
(1)判别式
①胡伊斯克斯等研究表明,除了标准的低层图像特征外,使用字幕或标签显著提高了支持向量机( SVM )和线性判别分析( LDA )模型的分类精度。②类似的,吉约曼等基于多核学习框架,进一步证明了增加文本模态可以提高SVM在各种物体识别任务上的准确率。
缺点:这些方法本质上都是判别式的,无法利用大量未标记数据或容易处理缺失的输入模态。
(2)生成式
①在生成式方面,Xing等使用双段翼谐波来构建图像和文本的联合模型,该模型可以看作是由高斯隐单元与高斯和泊松可见单元组成的线性RBM模型。
缺点:不同的数据模态通常具有非常不同的统计特性,这使得使用浅层模型对其进行建模变得困难。
4、我们工作的不同之处:与我们的工作最相似的是最近Ngiam等人使用深度自编码器进行语音和视觉融合的方法。DBM与其的几个重要的区别:①我们专注于整合非常不同的数据模态:②稀疏的单词计数向量和实值稠密的图像特征。③我们开发了一个深度玻尔兹曼机作为生成模型,而不是将网络展开并将其作为自编码器进行微调。虽然这两种方法在一些领域都取得了有趣的结果,但使用生成模型对于我们在本文中考虑的应用是很重要的,因为它允许我们的模型自然地处理缺失的数据模态。
二、模型回顾:RBM及其推广RBMs and Their Generalizations
Replicated Softmax模型已被证明