09-Cross-Modal Representation

最新推荐文章于 2024-09-11 21:31:46 发布

只鸥周

最新推荐文章于 2024-09-11 21:31:46 发布

阅读量78

点赞数

分类专栏： NLP表示学习文章标签：搜索引擎深度学习人工智能

本文链接：https://blog.csdn.net/zzk0126/article/details/132731437

版权

NLP表示学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

9 Cross-Modal Representation

跨模态表示学习是表示学习的重要组成部分，旨在学习文本、音频、图像、视频等模态的潜在语义表征。在本章中，我们首先介绍了典型的跨模态表示模型。在此之后，我们回顾了几个与跨模态表示学习相关的真实应用，包括图像字幕、视觉关系检测和视觉问题回答。

9.1 Introduction

正如维基百科所介绍的，模态是对计算机和人类之间单一独立的感官输入/输出通道进行分类。更一般地说，模式是人类和现实世界之间信息交换的不同手段。分类通常是基于信息呈现给人类的形式。现实世界中的典型模式包括文本、音频、图像、视频等。

跨模态表示学习是表征学习的重要组成部分。事实上，人工智能本质上是一种多模态任务[30]。人类每天都要接触到多模式的信息，整合不同模式的信息，做出综合判断是正常的。此外，不同的模式并不是独立的，但它们有或多或少的相关性。例如，对一个音节的判断不仅是由我们所听到的声音，还包括我们所看到的说话者的嘴唇和舌头的运动。在[48]上的一个实验表明，一个声音/ba/与视觉/ga/被大多数人视为a /da/。另一个例子是人类的能力考虑二维图像和3d扫描相同的对象在一起，重建其结构：图像和扫描之间的相关性可以找到基于这一事实的不连续深度扫描通常表明图像的直线[52]。受此启发，我们很自然地考虑在人工智能系统中组合来自多模态的输入并生成跨模态表示的可能性。

Ngiam等人。[52]探索了将多种模式合并为一个学习任务的概率。作者将一个典型的机器学习任务分为三个阶段：特征学习、监督学习和预测。他们进一步提出了四种多模态的学习设置： (1)单模态学习：所有阶段都是在一种模态上完成的。(2)多模态融合：所有的阶段都是用所有可用的模式来完成的。(3)跨模态学习：在特征学习阶段，所有的模态都是可用的，但在监督学习和预测中，只使用了一种模态。(4)共享表示学习：在特征学习阶段，所有的模式可用。在监督学习中，只使用了一种模态，而在预测中，使用了一种不同的模态。

实验结果表明，这些多模态任务具有良好的效果。当提供更多的模式（如多模态融合、跨模态学习和共享表示学习）时，系统的性能通常会更好。在本章的下一部分中，我们将首先介绍跨模态表示模型，这是自然语言处理中跨模态表示学习的基本部分。然后，我们将介绍几个关键的应用程序，如图像字幕、视觉关系检测和视觉问题回答。

9.2 Cross-Modal Representation

跨模态表示学习旨在利用来自多种模态的信息来构建嵌入。现有的涉及文本模态的跨模态表示模型一般可以分为两类： (1) [30,77]试图将来自不同模态的信息融合成统一的嵌入（例如，视觉基础的词表示）。(2)研究人员还试图在一个共同的语义空间中建立不同模式的嵌入，这允许模型计算跨模态相似性。这种跨模态相似性可以进一步用于下游任务，如零镜头识别[5,14,18,53,65]和跨媒体检索[23,55]。在本节中，我们将分别介绍这两种跨模态表示模型。

9.2.1 Visual Word2vec

计算单词嵌入是自然语言处理中表示学习的一项基本任务。典型的单词嵌入模型（如Word2vec [49]）是在一个文本语料库上进行训练的。这些模型虽然非常成功，但并不能发现可以在其他模式中表达的单词之间的隐式语义相关性。Kottur等人[30]提供了一个例子：尽管吃东西和盯着看似乎与文字无关，但图片可能显示，当人们吃东西时，他们也会倾向于盯着它看。这意味着在构建单词嵌入时考虑其他模式可能有助于捕获更多的隐式语义相关性。

视觉是最关键的表达方式之一，它已经吸引了那些寻求改善词汇表现的研究人员的注意。已经提出了几种结合视觉信息和改进视觉单词嵌入的模型。下面我们将介绍两个包含视觉信息的典型单词表示模型。

9.2.1.1 Word Embedding with Global Visual Context

Xu等人[77]提出了一个模型，可以自然地尝试结合视觉特征。它声称，在大多数单词表示模型中，只考虑局部上下文信息（例如，试图使用邻近的单词和短语来预测一个单词）。另一方面，全局文本信息（例如，文章的主题）经常被忽视。该模型利用可视化信息作为全局特征，扩展了一个简单的局部上下文模型（见图9.1）。

该模型的输入是一个图像I和一个描述它的序列。它基于一个简单的局部上下文语言模型：当我们考虑一个序列中的某个单词wt时，它的局部特征是一个窗口中单词嵌入的平均值，即{wt−k，…，wt−1，wt+1，…，wt+k}。视觉特征使用CNN直接从图像I中计算出来，然后作为全局特征。然后将局部特征和全局特征连接成一个向量f。一个单词wt（在这个空白部分）的预测概率是f和单词嵌入wt的softmax归一化乘积

$\begin{aligned}o_{w_t}&=\mathbf{w}_t^T\mathbf{f},&(9.1)\\P(w_t|w_{t-k},\ldots,w_{t-1},w_{t+1},\ldots,w_{t+k};I)&=\frac{\exp(o_{w_i})}{\sum_i\exp(o_{w_i})}.&(9.2)\end{aligned}$

该模型通过最大化对数概率的平均值来进行优化：

$\mathscr{L}=\frac{1}{T}\sum_{t=k}^{T-k}\log P(w_t|w_{t-k},\ldots,w_{t-1},w_{t+1},\ldots,w_{t+k};I).\quad(9.3)$

分类错误将被反向传播到局部文本向量（即单词嵌入）、视觉向量和所有模型参数。这就完成了对一组单词嵌入、一个语言模型和用于视觉编码的模型的联合学习。

9.2.1.2 Word Embedding with Abstract Visual Scene

Kottur等人[30]还提出了一种神经模型来从视觉信息中捕获细粒度的语义。我们不关注真实的像素，而是考虑视觉背后的抽象场景。该模型以一对视觉场景和一个相关的单词序列（I，w）作为输入。在每个训练步骤中，在单词序列w上使用一个窗口，形成一个子序列Sw。Sw中的所有单词将使用单热编码输入到输入层，因此输入层的维度是|V |，这也是词汇表的大小。然后将单词转换为它们的嵌入，而隐藏层是所有这些嵌入的平均值。隐层的大小为NH，这也是单词嵌入的维数。隐层和输出层由一个维数为NH∗NK的全连接矩阵和一个softmax函数连接。输出层可以看作是在视觉场景I的离散值函数g（·）上的概率分布（细节将在以下段落中给出）。通过最小化目标函数，对整个模型进行了优化 $\mathscr{L}=-\log P(g(w)|S_w).\quad(9.4)$

该模型中最重要的部分是函数g（·）。它将视觉场景I映射到集合{1,2，…，NK }中，这表明它是什么样的抽象场景。在实践中，使用K-means聚类离线学习，每个聚类表示一种视觉场景的语义，从而设计为与场景相关的单词序列w。

9.2.2 Cross-Modal Representation for Zero-Shot Recognition

大规模的数据集部分地支持了深度学习方法的成功。尽管数据集的规模继续扩大，并且涉及到更多的类别，但数据集的注释是昂贵和耗时的。对于许多类别，有非常有限的实例，甚至没有实例，这限制了识别系统的可伸缩性。

提出了零射击识别来解决上述问题，目的是对在训练中没有看到的类别实例进行分类。许多工作提出利用跨模态表示进行零镜头图像分类[5,14,18,53,65]。具体来说，图像表示和类别表示被嵌入到一个公共的语义空间中，其中图像表示和类别表示之间的相似性可以用于进一步的分类。例如，在这样一个共同的语义空间中，猫的图像的嵌入比类别卡车的嵌入更接近于类别猫的嵌入。

9.2.2.1 Deep Visual-Semantic Embedding

零射击学习的挑战在于缺乏不可见类别的实例，这使得获得表现良好的不可见类别的分类器具有挑战性。Frome等人[18]提出了一个模型，利用标记图像和来自大规模纯文本的信息进行零镜头图像分类。他们试图利用单词嵌入中的语义信息，并将其转移到图像分类系统中。

他们的模型的动机是，单词嵌入包含了概念或类别的语义信息，这些信息可以潜在地用作相应类别的分类符。相似的类别在语义空间中可以很好地聚类。例如，在单词嵌入空间中，虎鲨这个词的最近邻是类似种类的鲨鱼，如牛鲨、黑尖鲨、沙洲鲨和海洋白尖鲨。此外，不同集群之间的边界是明确的。上述特性表明，词嵌入可以进一步用作识别系统的分类器。

具体来说，该模型首先在大规模的维基百科文章中使用Skip-gram文本模型来预训练单词嵌入。对于视觉特征提取，该模型在ImageNet上对1000个对象类别的深度卷积神经网络进行了预训练。利用预先训练好的单词嵌入和卷积神经网络对所提出的深度视觉-语义嵌入模型（DeViSE）进行了初始化。

为了训练所提出的模型，他们将预先训练好的卷积神经网络的最大软层替换为线性投影层。该模型被训练来预测使用铰链排名损失的图像类别的单词嵌入： $\mathscr{L}(I,y)=\sum_{j\neq y}\max[0,\gamma-\mathbf{w}_y\mathbf{MI}+\mathbf{w}_j\mathbf{MI}],\quad\quad\quad(9.5)$

wy和wj的学习单词嵌入正标签和采样的负标签，分别表示图像的特征从卷积神经网络，M是线性投影层的可训练参数，和γ是铰链超参数排名损失。给定一个图像，目标要求模型对正确的标签产生比随机选择的标签更高的分数，其中分数被定义为投影图像特征和单词嵌入术语的点积。

在测试时，给定一个测试图像，在训练过程中使用相同的方法获得每个可能类别的得分。请注意，在测试时的一个关键区别是，分类器（单词嵌入）被扩展到所有可能的类别，包括看不见的类别。因此，该模型能够预测不可见的类别。

实验结果表明，DeViSE可以做出更合理的零射击预测，这意味着即使预测不完全正确，它在语义上也与地面真实类相关。但缺点是，虽然模型可以利用单词嵌入中的语义信息进行零镜头图像分类，但使用单词嵌入作为分类器限制了模型的灵活性，导致原始的1000个类别的性能低于原始的softmax分类器。

9.2.2.2 Convex Combination of Semantic Embeddings

受DeViSE的启发，[53]提出了一个模型ConSE，该模型试图利用来自单词嵌入的语义信息进行零射击分类。与DeViSE的一个重要区别是，它们使用已看到类别的词嵌入的凸组合来获得测试图像的语义嵌入。相应类别的分数决定了组合词嵌入的权重。

具体来说，他们对已看到的类别训练一个深度卷积神经网络。在测试时，给定一个测试图像I（可能来自不可见的类别），他们获得已看到类别的最高T自信预测，其中T是一个超参数。然后，I的语义嵌入f (I)由顶级T自信类别的语义嵌入的凸组合确定，可以正式定义如下：

$\begin{aligned}f(I)=\frac{1}{Z}\sum_{t=1}^{T}P(\hat{y}_{0}(I,t)|I)\cdot\mathbf{w}(\hat{y}_{0}(I,t)),&&(9.6)\end{aligned}$

where $\hat{y}_{0}(I,t)$ is the tth mostconfident training label for I, w(yo(I,t))is the semantic embedding(word embedding) of $\mathbf{\hat{y}}_{0}(I,t)$ , and Z is a normalization factor given by

$Z=\sum_{t=1}^{T}P(\hat{y}_{0}(I,t)|I).$

(9.7)

在获得语义嵌入f (I)后，类别m的得分由f (I)和w (m)的余弦相似度给出。

虽然ConSE和DeViSE有许多相似之处，但也有一些关键的不同之处。DeViSE用一个投影层取代了预先训练过的视觉模型的softmax层，而ConSE则保留了softmax层。ConSE不需要进行进一步的训练，并在测试时使用语义嵌入的凸组合来执行零射击分类。实验结果表明，ConSE在看不见类别上的性能优于DeViSE，具有更好的泛化能力。然而，ConSE在可见类别上的性能不如DeViSE和原始的softmax分类器具有竞争力。

9.2.3 Cross-Modal Representation for Cross-Media Retrieval

在公共语义空间中从不同模态学习跨模态表示可以轻松计算跨模态相似性，这可以促进许多重要的跨模态任务，如跨媒体检索。随着互联网上的文本、图像、视频和音频等多媒体数据的快速增长，跨不同方式检索信息的需求变得越来越强烈。交叉媒体检索是多媒体领域的一项重要任务，其目的是跨文本和图像等不同模式进行检索。例如，用户可以提交一匹白马的图像，并从不同的模式中检索相关信息，如对马的文本描述，反之亦然。跨模式检索的一个重大挑战是不同模式之间的域差异。此外，对于一个特定的感兴趣的领域，跨模态数据可能是不够的，这限制了现有的跨模态检索方法的性能。许多工作都集中在上述交叉模态检索[23,24]中提到的挑战上。

9.2.3.1 Cross-Modal Hybrid Transfer Network

Huang等人[24]提出了一个框架，试图通过迁移学习来缓解跨模态数据稀疏性问题。他们建议利用来自大规模单模态数据集的知识来促进在小规模数据集上的模型训练。大量的辅助数据集表示为源域，感兴趣的小规模数据集表示为目标域。在他们的工作中，他们采用了一个大型图像数据库ImageNet [12]作为源域。

他们的模型由一个模态共享转移子网和一个层共享相关子网组成。在模态共享传输子网络中，他们采用AlexNet [32]的卷积层来提取源域和目标域的图像特征，并利用词向量来获取文本特征。图像和文本特征通过两个完全连接的层，其中进行单模态和跨模态的知识转移。

单模态知识转移的目的是将知识从源域的图像转移到目标域的图像。主要的挑战是两个图像数据集之间的域差异。他们提出通过最小化源域和目标域之间的图像模态的最大平均差异（MMD）来解决域差异问题。MMD在全连接层中以层的方式计算。

通过最小化再现核希尔伯特空间中的MMD，得到了来自源域和目标域的图像表示鼓励有相同的分布，因此来自源域图像的知识有望转移到目标域的图像。此外，还通过优化已标记图像实例的软最大损耗，对源域中的图像编码器进行了微调。

跨模态知识转移的目的是在目标领域的图像和文本之间进行知识转移。通过最小化它们的欧氏距离，鼓励来自目标域中的注释对的文本和图像表示彼此接近。在全连接的层中，图像和文本表示的跨模态传输损失也被分层计算。图像和文本模式之间的领域差异有望在高层层中减少。

在层共享相关子网中，将目标域中的模态共享转移子网的表示输入到共享的全连接层中，以获得图像和文本的最终公共表示。由于参数在两种模态之间共享，最后两个完全连接的层被期望捕获跨模态相关。他们的模型还利用目标域的标签信息，最小化标记图像/文本对的软大损失。在获得最终的公共表示后，可以通过简单地计算语义空间中的最近邻来实现跨媒体检索。

9.2.3.2 Deep Cross-Media Knowledge Transfer

作为一个扩展[23,24]也专注于处理领域差异和跨媒体检索在特定领域，黄和彭[23]提出一个框架，转移知识从大规模跨媒体数据集（源域）提高模型性能在另一个小规模跨媒体数据集（目标域）。

与[24]的一个关键区别是，源域中的数据集也由带有标签注释的图像/文本对组成，而不是[24]中的单模态设置。由于这两个领域都包含图像和文本媒体类型，因此领域的差异来自同一媒体类型的媒体水平差异，以及不同领域之间的图像/文本相关模式的相关级差异。他们提出通过联合减少媒体层面和相关层面的领域差异来转移媒体内部语义和媒体间的相关知识。

为了提取不同媒体类型的分布式特征，图像编码器采用VGG19 [63]，文本编码器采用Word CNN [29]。这两个域具有相同的架构，但不共享参数。提取的图像/文本特征分别通过两个完全连接的层，在其中进行媒体级传输。与[24]类似，它们通过最小化源域和目标域之间的最大平均差异（MMD）来减少相同模式内的域差异。MMD以分层的方式计算，以在相同的模式中传输知识。它们还最小化了源域和目标域中图像/文本表示对之间的欧氏距离，以保持跨模态的语义信息。

相关级转移的目的是减少不同领域中图像/文本相关模式的域差异。在两个域中，图像表示和文本表示共享最后两个完全连接的层，以获得每个域的公共表示。它们优化了不同域中共享的全连接层之间的层级MMD损失，以进行相关级的知识转移，这鼓励了源域和目标域具有相同的图像/文本相关模式。最后，用图像/文本对的标签信息对这两个领域进行训练。请注意，源域和目标域并不一定共享相同的标签集。

此外，他们还提出了一种渐进式迁移机制，这是一种旨在提高模型训练的鲁棒性的课程学习方法。这是通过在早期选择简单的样本进行模型训练来实现的，并逐渐增加了训练的难度。根据双向跨媒体检索的一致性来衡量训练样本的难度。

9.3 Image Captioning

图像字幕是自动生成图像的自然语言描述的任务。它是连接自然语言处理和计算机视觉的人工智能领域的一项基本任务。与图像分类和目标检测等其他计算机视觉任务相比，图像字幕难度较大，原因有二：一是不仅要检测物体，而且要检测它们之间的关系；其次，除了基本的判断和分类外，还必须生成自然语言句子。

传统的图像字幕方法通常使用检索模型或生成模型，与新的深度神经网络模型相比，这些模型的推广能力相对较弱。在本节中，我们将在下面介绍这两种类型的几个典型模型。

9.3.1 Retrieval Models for Image Captioning

检索模型的主要管道是(1)使用特殊特征表示图像和/或句子；(2)对于新的图像和/或句子，根据特征的相似性搜索可能的候选对象。

将单词与图像进行链接有着丰富的历史，而[50]（一种检索模型）是第一个图像标注系统。本文试图建立一个基于标记数据的图像关键字分配系统。管道的内容如下：

(1)图像分割。每个图像被分成几个部分，使用最简单的矩形划分。这样做的原因是，一个图像通常用多个标签进行注释，每个标签通常只对应于它的一部分。分割将有助于减少标签中的噪声。

(2)特征提取。提取了图像各部分的特征。

(3)聚类。将图像片段的特征向量分为几个簇。每个集群累积单词的频率，从而计算单词的可能性。具体来说， $P(w_i|c_j)=\frac{P(c_j|w_i)P(w_i)}{\sum_kP(c_j|w_k)P(w_k)}=\frac{n_{ji}}{N_j},\quad\quad(9.10)$

其中，n ji为wordwi在集群j中出现的次数，nj为所有单词在集群j中出现的次数。该计算是基于使用频率作为概率的。

(4)推理。对于一幅新图像，模型将其分割成分段，提取每个部分的特征，最后聚合分配给每个部分的关键字，得到最终的预测。

该模型的关键思想是图像分割。以一幅风景图片为例，有两个部分：山和天空，这两个部分都要标注这两个标签。然而，如果另一张图片有山和河流两个部分，这两个山的部分将有希望在同一个集群中，并发现它们共享同一个标签山。这样，就可以给图像的正确部分分配标签，也可以减轻噪声。

[17]提出了另一个典型的检索模型，它可以在图像和句子之间分配一个链接分数。一个有意义的中间空间会计算出这个链接的分数。意义空间的表示是一个三重形式的对象，动作，场景.三重体的每个槽都有一个有限的离散候选集。将图像和句子映射到意义空间的问题涉及到求解一个马尔可夫随机场。

与之前的模型不同，该系统不仅可以做图像标题，还可以做逆标题，即给定一个句子，该模型提供了某些可能的关联图像。在推理阶段，首先将图像（句子）映射到中间意义空间，然后我们在池中搜索匹配分数最好的句子（图像）。

之后，研究人员还提出了许多考虑了图像不同种类特征的检索模型，如[21,28,34]。

9.3.2 Generation Models for Image Captioning

与基于检索的模型不同，生成模型的基本管道是(1)使用计算机视觉技术提取图像特征，(2)使用语言模型或句子模板等方法从这些特征中生成句子。

Kulkarni等人[33]提出了一个系统，使特定的图像和句子生成过程之间建立紧密的联系。该模型使用视觉检测器来检测特定的对象，以及单个对象的属性和多个对象之间的关系。然后构造一个条件随机场，合并一元图像势和高阶文本势，从而预测标签为图像。由条件随机场（CRF）预测的标签被安排为一个三重体，例如，白色，云，，，蓝色，天空.

然后根据标签生成句子。基于三重骨架构建句子有两种方法。(1)首先是使用n-gram语言模型。例如，当试图决定是否在一对有意义的单词（这意味着它们在三重内部）a和b之间放置一个胶水单词x时，将比较ˆp（axb）和ˆp（ab）的概率。ˆp是n-gram语言模型的标准长度归一化概率。(2)第二种方法是使用一组描述性语言模板，从而缓解了语言模型中的语法错误问题。

此外，[16]提出了一个新的框架来明确地表示图像结构与其标题句子结构之间的关系。该方法，视觉依赖表示，检测图像中的对象，并基于所提出的视觉依赖语法检测这些对象之间的关系，其中包括8个典型的关系。然后，图像可以排列为一个依赖图，其中节点是对象，边是关系。这个图像依赖图可以与标题句子的语法依赖表示对齐。本文进一步提供了四个模板，从提取的依赖关系表示中生成描述性句子

除了这两个典型的作品之外，还有大量用于图像字幕的生成模型，比如[15,35,78]。

9.3.3 Neural Models for Image Captioning

在[33]中，2011年有人声称，在图像字幕任务中：自然语言生成仍然是一个开放的研究问题。以前的大多数工作都是基于检索和总结的。从2015年开始，受神经语言模型和神经机器翻译研究进展的启发，提出了一些基于编码器-解码器系统的端到端神经图像字幕模型。这些新模型极大地提高了生成自然语言描述的能力。

9.3.3.1 The Basic Model

传统的机器翻译模型通常会将许多子任务拼接在一起，比如单个单词的翻译和重新排序，以执行句子和段落的翻译。最近的神经机器翻译模型，如[8]，使用单一的编码-解码器模型，可以方便地通过随机梯度下降进行优化。图像字幕的任务本质上类似于机器翻译，因为它也可以被视为一个翻译任务，其中源“语言”是一个图像。用于机器翻译的编码器和解码器通常是rnn，这是对单词序列的自然选择。对于图像字幕，选择CNN作为编码器，同时仍使用RNN作为解码器。

Vinyals等人，[70]是使用编码器-解码器进行图像字幕的最典型的模型（见图9.2）。具体地说，使用CNN模型将图像编码为一个固定长度的向量，该向量被认为包含了进行字幕所需的信息。使用这个向量，使用一个RNN语言模型来生成自然语言描述，这就是解码器。在这里，解码器类似于用于机器翻译的LSTM。第一个单元以图像向量作为输入向量，其余单元以前一个字嵌入作为输入。每个单元输出一个向量o，并将一个向量传递给下一个单元。O被进一步输入到一个softmax层，其输出p是词汇表中每个单词的概率。在训练和测试中，处理这些计算概率的方法是不同的：

训练这些概率p用于计算所提供的描述句子的可能性。考虑到rnn的性质，很容易将联合概率建模为条件概率。 $\log P(s|I)=\sum_{t=0}^N\log P(w_t|I,w_0,\ldots,w_{t-1}),\quad\quad(9.11)$

其中，s = {w标记，和1，w2，…，wN }是句子和它的单词，w0是一个特殊的开始，I是图像。因此，可以进行随机梯度下降来优化模型。

测试。有多种方法可以生成给定一个图像的句子。第一个叫做抽样。对于每一步，选择p中概率最高的单个单词，并作为下一个单元的输入，直到生成END令牌或达到最大长度。第二个叫做光束搜索。对于每一步（现在句子的长度为t），保留k个最好的句子。每一个都会产生几个长度为t + 1的新句子，同样，他们只知道句子是保持。光束搜索提供了一个更好的近似值

$s^*=\arg\max_s\log P(s|I).$

9.4 Visual Relationship Detection

视觉关系检测是检测图像中的对象并理解它们之间的关系的任务。虽然目标检测总是基于语义分割或目标检测方法，如R-CNN，但理解这种关系是这项任务的关键挑战。虽然检测与图像信息的视觉关系是直观而有效的[25,62,84]，但利用语言信息可以进一步提高模型性能[37,41,82]。

9.4.1 Visual Relationship Detection with Language Priors

Lu等人[41]提出了一个模型，该模型使用语言先验来提高罕见关系的性能，而仅从图像中很难获得足够的训练实例。整体架构如图9.5所示。他们首先训练一个CNN来计算从视觉输入中获得的非标准化关系的概率

9.4.2 isual Translation Embedding Network

受最近知识表示学习进展的启发，[82]提出了一种视觉翻译嵌入网络VTransE。对象和对象之间的关系被建模为TransE [7]类似的向量转换。VTransE首先将主体和对象投射到与关系转换向量r∈rr相同的空间中。主体和对象可以在特征空间中表示为xs，∈RM，其中M∈。与TransE关系类似，VTransE建立的关系为

9.6 Summary

在本章中，我们首先介绍了跨模态表示学习的概念。跨模态学习是必要的，因为许多现实世界的任务需要能够理解来自不同模态的信息，如文本和图像。接下来，我们介绍了跨模态表示学习的概念，它旨在利用链接，并更好地利用来自不同模态的信息绑结我们概述了现有的跨模态任务的跨模态表示学习方法，包括零镜头识别、跨媒体检索、图像字幕和视觉问题回答。这些跨模态学习方法要么尝试将来自不同模态的信息融合成统一的嵌入，要么尝试在公共语义空间中为不同模态构建嵌入，从而允许模型计算跨模态相似性。跨模态表示学习正引起越来越多的关注，可以作为不同研究领域之间的一个有前途的联系。

只鸥周

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
09-Cross-Modal Representation

Kottur等人[30]还提出了一种神经模型来从视觉信息中捕获细粒度的语义。我们不关注真实的像素，而是考虑视觉背后的抽象场景。该模型以一对视觉场景和一个相关的单词序列（I，w）作为输入。在每个训练步骤中，在单词序列w上使用一个窗口，形成一个子序列Sw。Sw中的所有单词将使用单热编码输入到输入层，因此输入层的维度是|V |，这也是词汇表的大小。然后将单词转换为它们的嵌入，而隐藏层是所有这些嵌入的平均值。隐层的大小为NH，这也是单词嵌入的维数。
复制链接

扫一扫

专栏目录