论文学习笔记|Multimodal Learning with Deep Boltzmann Machines

摘要:

1、用处:联合多模态的表征进行输出。一种用于学习由多种和多样化输入模态组成的数据生成模型的深度玻尔兹曼机可以抽取一个统一的多模态融合在一起的表征(extract a unified representation that fuses modalities together)。

2、应用:①用于分类和信息抽取(检索)。该模型通过学习多模态输入空间上的概率密度来工作。它使用潜变量的状态作为输入的表示。②某些特征缺失的情况下抽取多模态特征。即使在某些模态缺失的情况下,模型也可以通过从这些模态上的条件分布中采样并填充这些模态来提取这种表示。③在图像、文本进行多模态学习,能学习到很好的一个联合特征的分布,可以学习到一个良好的图像和文本输入联合空间的生成模型,这对于从单模态和多模态查询中进行信息检索都是有用的。

3、结果:比单纯SVMs和LDA要好。与其他深度学习方法进行了比较,包括自动编码器和深度信念网络,并表明其取得了明显的增益。

一、引言Introduction

1、多模态的困难:①在多模态环境下,数据由多个输入模态组成,每个模态具有不同的表征和关联结构。例如,文本通常表示为离散的稀疏单词计数向量,而图像则使用像素强度或特征提取器的输出来表示。发现跨模态之间的关系比发现同一模态中特征之间的关系要困难得多。输入中存在着大量的结构,却很难发现其中存在的高度非线性关系;②这些观测值通常是非常有噪声的;③可能存在缺失值。

2、我们提出的多模态深度玻尔兹曼机( Deep Boltzmann Machine,DBM )模型满足上述要求。DBM是隐藏单元相邻层之间具有二分连接的无向图模型。其核心思想是在多模态输入空间上学习一个联合密度模型。然后,在给定观测模态的情况下,缺失模态可以通过从它们上面的条件分布采样来填充。例如,我们使用大量带有用户标签的图像集合来学习图像和文本的联合分布。通过从P (vtxt | vimg , θ)和P ( vimg | vtxt , θ)中抽取样本,我们可以填充缺失数据,从而分别进行图像标注和图像检索。

3.前人的工作及不足:

从多模态数据中学习已经有几种方法。

(1)判别式

①胡伊斯克斯等研究表明,除了标准的低层图像特征外,使用字幕或标签显著提高了支持向量机( SVM )和线性判别分析( LDA )模型的分类精度。②类似的,吉约曼等基于多核学习框架,进一步证明了增加文本模态可以提高SVM在各种物体识别任务上的准确率

缺点:这些方法本质上都是判别式的,无法利用大量未标记数据或容易处理缺失的输入模态。

(2)生成式

①在生成式方面,Xing等使用双段翼谐波来构建图像和文本的联合模型,该模型可以看作是由高斯隐单元与高斯和泊松可见单元组成的线性RBM模型。

缺点:不同的数据模态通常具有非常不同的统计特性,这使得使用浅层模型对其进行建模变得困难。

4、我们工作的不同之处:与我们的工作最相似的是最近Ngiam等人使用深度自编码器进行语音和视觉融合的方法。DBM与其的几个重要的区别:①我们专注于整合非常不同的数据模态:②稀疏的单词计数向量和实值稠密的图像特征。③我们开发了一个深度玻尔兹曼机作为生成模型,而不是将网络展开并将其作为自编码器进行微调。虽然这两种方法在一些领域都取得了有趣的结果,但使用生成模型对于我们在本文中考虑的应用是很重要的,因为它允许我们的模型自然地处理缺失的数据模态。

二、模型回顾:RBM及其推广RBMs and Their Generalizations

Replicated Softmax模型已被证明在建模稀疏词计数向量方面是有效的,而高斯RBMs已被用于建模语音和视觉任务的实值输入。

对于上述所有模型,精确的最大似然学习都是难以实现的。在实践中,高效的学习是通过对比散度( CD )来实现的。

三、Multimodal Deep Boltzmann Machine

深度玻尔兹曼机( Deep Boltzmann Machine,DBM )是由对称耦合的随机二进制单元组成的网络。它包含一组可见单元v和一组隐藏单元h。连接只存在于相邻层的隐藏单元之间。

我们首先考虑一个具有两个隐藏层的DBM。联合构型{ v,h }的能量定义为(忽略偏置项):

类似于RBM,这种二元-二元DBM可以很容易地扩展到建模稠密的实值或稀疏的计数数据,我们接下来讨论了这一点。

我们使用图像-文本双模态DBM作为运行实例来说明多模态DBM的构建。令vm∈RD表示图像输入,vt∈NK表示文本输入。考虑使用独立的两层DBM对每个数据模态进行建模(图2 )。图像专用的两层DBM将概率分配给Vm(为了清晰起见,忽略隐藏单元上的偏置项):

注意,我们从高斯RBM 中借用了可见-隐藏交互项,从二元RBM中借用了隐藏-隐藏交互项。类似地,文本特定的DBM将使用Replicated Softmax模型中的项来处理可见-隐藏交互和Binary RBM中的隐藏-隐藏交互项。

为了形成多模态DBM,我们通过在这两个模型的顶部添加一层额外的二进制隐藏单元来组合这两个模型。得到的图形模型如图2所示。

多模态输入的联合分布可以写为:

3.1 Approximate Learning and Inference

该模型中的精确极大似然学习是难以解决的,但可以通过使用平均场推断来估计数据依赖的期望,以及基于MCMC的随机逼近过程来近似模型的期望充分统计量来进行有效的近似学习。特别地,在推断步骤中,我们用五组隐藏单元上的全因子近似分布来逼近真实后验。

学习通过寻找使当前模型参数θ的变分下界最大的μ值来进行,从而得到一组平均场不动点方程。给定变分参数μ,然后使用基于MCMC的随机近似更新模型参数θ以最大化变分界。

参数初始化:为了将模型参数初始化为好的值,我们使用了一种贪婪的逐层预训练策略,a greedy layer-wise pretraining strategy by learning a stack of modified RBMs。

3.2 Salient Features 显著特征

多模态DBM可以看作是单模态无向通路的组合。每条通路都可以以完全无监督的方式单独预训练,这使得我们可以利用大量的未标记数据。任何层数的任意数目的通路都有可能被使用。每个通路中低级RBM的类型可能不同,导致不同的输入分布,只要每个通路末尾的最终隐藏表示是相同的类型。

模型背后的思想:每个数据模态具有非常不同的统计特性,这使得单隐层模型(如图3(a))很难直接找到模态间的相关性。在我们的模型中,这种差异是通过在模态之间放置多层隐藏单元来弥合的。这个想法在图3(c)中得到了说明。这只是图2的一种不同的表现方式。

与简单的RBM (图3a)相比,即隐藏层h直接建模于vt和vm上的分布,DBM的第一层隐藏单元h ( 1 ) m更简单,即对vm和h ( 2 ) m上的分布进行建模。

DBM中的每一层隐藏单元对vm和vt上的分布建模的整体任务贡献很小的一部分。在这个过程中,每一层都依次学习更高层次的表示,并去除模式特异性相关性(modality-specific correlations)。因此,网络中的中间层可以看作是输入的(相对) 模态自由(a (relatively) “modality-free” representation)的表示,而不是输入层的模态完整(modality-full)。

使用深度模型组合多模态输入的另一种方法是使用多模态深度信念网络( DBN ) (图3b ),该网络由一个RBM和导向信念网络组成。我们强调该模型与图3c的DBM模型有一个重要的区别。在DBN模型中,多模态建模的责任完全落在联合层上。另一方面,在DBM中,这种责任分散在整个网络中。模态融合过程分布在所有层的所有隐藏单元中。从生成的角度来看,一条通路中低层隐藏单元的状态可以通过更高层的层来影响其他通路中隐藏单元的状态,DBNs却不行。

3.3 Modeling Tasks

1、生成缺失模态:多模态DBM可以通过在输入端钳制观测模态,并通过运行标准的交替Gibbs采样器从条件分布中采样隐藏模态来生成这些缺失的数据模态。eg:考虑生成以给定图像vm为条件的文本。观测模态vm被固定在输入端,所有隐藏单元被随机初始化。P ( vt | vm )是词汇表上的多项式分布。交替Gibbs抽样可以用来从P ( vt | vm )中抽取单词。

2、推断联合表示:该模型还可以用于生成多种数据模态的融合表示。这种融合表示是通过对观测模态进行钳制,并对来自P ( h ( 3 ) | vm,vt ) (如果两种模态都存在)或P ( h ( 3 ) | vm ) (如果文本缺失)的样本进行交替Gibbs采样来推断的。我们在实验结果中采用的一个更快的替代方案是使用变分推断(见Sec . 3.1 )来近似后验Q ( h ( 3 ) | vm,vt )或Q ( h ( 3 ) | vm )。隐藏单元h ( 3 )的激活概率构成了输入的联合表示。然后,该表示可以用于多模态或单模态查询的信息检索。数据库(不论是否遗漏某些模态)中的每个数据点都可以映射到这个潜在空间。查询也可以映射到这个空间,并且可以使用适当的距离度量来检索与查询距离较近的结果。

3、判别性任务:分类器(如SVM)可以用这些融合的表示作为输入进行训练。或者,该模型可以用来初始化一个前馈网络,然后可以进行微调。在我们的实验中,逻辑回归被用来对融合的表示进行分类。与微调不同,这保证了我们比较( DBNs , DBMs和深度自编码器)的所有学习表示都使用相同的判别模型。

四、实验
4.1 Dataset and Feature Extraction

1、数据集:实验中使用了MIR Flickr数据集。该数据集由从社交摄影网站Flickr中检索到的100万张图像及其用户指定的标签组成。在这100万张图像中,有25,000张图像被标注了24个主题,包括物体类别,如鸟,树,人和场景类别,如室内,天空和夜晚。同时对其中的14个类别进行了更严格的标注,只有在该类别显著的情况下,图像才会被注释为类别。这导致一共有38个类,其中每个图像可能属于几个类。未标记的975000张图像仅用于预训练。我们使用15000张图像进行训练,10000张图像进行测试,遵循胡伊斯克斯等人的方法。

2、性能指标:平均精度均值( Mean Average Precision,MAP )。结果在5个随机分割的训练集和测试集上进行平均。

3、提取特征:每个文本输入使用2000个最频繁标签的词汇表表示。与一幅图像相关联的标签数量的平均值为5.15,标准差为5.13。没有任何标签的图像有128501张,其中有标签的图像有4551张。因此,大约18 %的标注数据有图像,但缺失文本。图像由3857维特征描述子(dimensional features)表示,这些特征描述子由拼接的词金字塔直方图( Pyramid Histogram of Words,PHOW )特征、Gist 和MPEG - 7描述子 ( EHD、HTD、CSD、CLD、SCD)提取。每个维度均为均值中心化,并标准化为单位方差。PHOW特征是通过在多个尺度上提取稠密的SIFT特征并进行聚类得到的图像词袋。我们使用了公开的代码来提取这些信息。

4.2 Model Architecture and Learning

图像通路由一个具有3857个可见单元的高斯RBM和2层1024个隐藏单元组成。

文本路径由一个有2000个可见单元的复制Softmax模型和2层1024个隐藏单元组成。联合层包含2048个隐藏单元。每层权重使用PCD预训练,用于初始化DBM模型。在学习DBM模型时,对所有的单词计数向量进行缩放,使其和为5。这避免了为每个单词计数运行单独的马尔可夫链,以获得模型分布的充分统计。

每个通路都使用一堆修改过的RBMs进行预训练。每个高斯单元都有固定的单位方差。

对于判别性任务,我们在联合隐层表示上使用逻辑回归进行一对多分类。我们进一步将15K训练集拆分为10K用于训练,5K用于验证。

4.3 Classification Tasks

1、多模态输入Multimodal Inputs:我们的第一组实验,评估DBM作为多模态数据的判别模型。对于我们训练的每个模型,提取数据的融合表示,并对38个主题中的每个主题进行单独的逻辑回归。当文本缺失时,DBM中的文本输入层保持未夹紧状态。图4总结了不同模型得到的平均精度均值( MAP )和精度@ 50 (预测精度在前50位)

线性判别分析( Linear Discriminant Analysis,LDA )和支持向量机( Support Vector Machines,SVMs )是使用未包含基于SIFT特征的图像和文本特征拼接的标记数据进行训练的。因此,为了进行公平的比较,我们的模型首先只使用具有相似特征集(也就是说,不包括我们的SIFT特征)的标记数据进行训练。我们称这种模型为DBM - Lab。图4表明,DBM - Lab模型已经优于其竞争对手SVM和LDA模型。DBMLab的MAP为0.526,而SVM和LDA模型的MAP分别为0.475和0.492。

(1)为了衡量使用未标记数据的效果,使用所有具有两种模态的未标记样本来训练DBM。我们称这个模型为DBM - Unlab。DBM - Unlab与DBM - Lab模型的唯一区别在于DBM - Unlab在预训练阶段使用了未标记数据。两个模型的输入特征保持不变。DBM - Unlab模型在DBM - Lab的MAP基础上有了显著的提高。我们的第三个模型,DBM,使用额外的基于SIFT的特征进行训练,添加这些特征使MAP提高到0.609。

(2)将我们的模型与另外两个深度学习模型进行了比较:多模态深度信念网络( DBN )和深度自编码器模型。这些模型采用与DBM相同的层数和隐藏单元进行训练。DBN取得了0.599的MAP,自编码器取得了0.600的MAP。它们的性能相当,但略差于DBM。在Precision @ 50方面,自动编码器的表现略优于其余。我们还注意到吉约曼等人提出的多核学习方法在同样的数据集上取得了0.623的MAP,他们使用了一个更大的图像特征集(37152个维度)。

2、单模态输入Unimodal Inputs:接下来,我们评估模型通过填充其他模态来提高单模态输入分类的能力。对于多模态模型,训练时,仅使用文本输入;测试时,所有模型均只给予图像输入。

模型设置:图4比较了多模态DBM模型与单独基于图像特征的SVM ( ImageSVM )、基于图像特征的DBN ( Image-DBN )和基于图像特征的DBM ( ImageDBM )。所有的深度模型都具有相同的深度和每层隐藏单元的数量。报告了多模态DBM在测试时刻的两种不同设置下的结果。

在一种情况下( DBMZeroText ),保持缺失的文本输入被钳制为零,推断联合隐含层的状态。在另一种情况下( DBM-GenText ),文本输入没有被钳制,并且允许模型在执行平均场更新时更新文本输入层的状态。这样做,模型有效地填充了缺失的文本模态(其中一些例子如图1所示)。这两个设置有助于确定对改进的贡献来自于对缺失情态的填补。

实验结果:DBM - GenText模型的性能优于其他所有模型,表明DBM能够生成有意义的文本,可以作为缺失数据的代理。有趣的是,DBMZeroText模型优于任何单峰模型。这表明,即使在测试时某些模态缺失的情况下也可以学习多模态特征。拥有多个模态可能会使模型规则化,使其学习到更好的特征。此外,这意味着我们不需要学习单独的模型来处理缺失数据模态的每个可能的组合。一个联合模型可以在测试时部署,并用于任何可能出现的情况。

DBM的每一层都提供了不同的输入表示。图4右边的面板显示了使用逻辑回归进行分类时,分别使用这些表示所得到的MAP。表现在极端端的输入层并不能很好地表示有用的特征。随着我们从任何一个输入层深入到模型的中间。中间的联合层作为最有用的特征表示。观察到任何DBM层的性能总是优于相应的DBN层,尽管它们在联合层接近。

4.4 Retrieval Tasks检索任务

1、多模态查询:设计下一组实验来评估学习到的联合表示的质量。从测试集中随机选取5000个图文对建立图像数据库。我们还随机选择了1000张互不相交的图片作为查询。每个查询都包含图像和文本两种模态。二元相关标签是通过假设如果一个查询和一个数据点之间的38个类标签中的任何一个重叠,那么该数据点与查询是相关的。

图5(a)展示了DBM、DBN和Autoencoder模型(对所有查询进行平均)的准确率-召回率曲线。对于每个模型,所有查询和数据库中的所有点都被映射到该模型下的联合隐藏表示。采用余弦相似度函数将查询与数据点进行匹配。在比较的模型中,DBM模型表现最好,MAP达到0.622。自编码器和DBN模型表现较差,MAP分别为0.612和0.609。

图6展示了一些多模态查询的例子和前4个检索结果。值得注意的是,即使在文本方面有很少的重叠,该模型也能够很好地执行。

2、单模态查询:DBM模型还可以通过填充缺失的模态对单模态输入进行查询。图5(b)展示了DBM模型和其他单峰模型的准确率-召回率曲线,其中每个模型都接收了与输入相同的图像查询。通过对缺失文本的有效推断,DBM模型能够取得远好于任何单峰方法( MAP为0.614 ,而Image - DBM和Image - DBN的MAP分别为0.587和0.578)的效果。

五、结论

我们提出了一种用于学习多模态数据表示的深度玻尔兹曼机模型。大量的无标签数据可以被模型有效地利用。每个模态的路径可以独立预训练,并"插入"在一起进行联合训练。该模型将多个数据模态融合为一个统一的表示。这种表示捕获了对分类和检索有用的特征。当某些模态缺失时,它也能很好地工作,并且改进了仅在观测模态上训练的模型。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值