论文 | 2020年UC Berkeley博士论文《视觉与语言推理的结构化模型》

原创 Ronghang Hu 图科学实验室Graph Science Lab 2022-11-27 06:00 发表于台湾

图科学实验室Graph Science Lab分享有关图理论、图表示学习、图神经网络、图+交叉学科(生物、化学、物理 ...)、图+交叉算法(DL、RL、NLP、CV ...)最新的科研资讯、论文、开源工具、招生/招聘、会议/竞赛、课程/书籍。欢迎持续关注。
图科学实验室Graph Science Lab分享有关图理论、图表示学习、图神经网络、图+交叉学科(生物、化学、物理 …)、图+交叉算法(DL、RL、NLP、CV …)最新的科研资讯、论文、开源工具、招生/招聘、会议/竞赛、课程/书籍。欢迎持续关注。

视觉-语言任务(例如回答关于图像的问题,建立参考表达,或遵循自然语言指令在视觉环境中导航)需要对图像和文本的两种模态进行联合建模和推理。我们已经见证了视觉和语言联合推理的重大进展,通常是通过在更大的数据集和更多计算资源的帮助下训练的神经方法进行的。然而,解决这些视觉和语言任务是否就像使用更多参数构建模型并在更多数据上训练它们一样简单?如果不是,我们如何构建更好的推理模型,使其数据高效并具有良好的泛化能力?

本文用视觉和语言推理的结构化模型来回答上述问题——模型的架构考虑了人类语言、视觉场景和智能体技能中的模式和规律。首先参考表情基础的任务,通过在第2章中提出的组合式模块化网络(cmn)考虑这些表情中的组合结构,可以实现明显更好的精度和泛化。本文用端到端模块网络(N2NMNs)进一步解决第3章中的视觉问答任务,该网络基于动态组成模块,与问题中的推理步骤一致。在第4章中,我们扩展了模块化推理的工作,并提出了堆栈神经模块网络(SNMNs),该网络可以自动归纳出正确的模块布局,并具有可解释的推理步骤。除了模块化推理,本文还在第5章中建议用语言条件图网络(LCGNs)构建视觉场景的上下文感知表示,用于关系推理,在第6章中建议用迭代指针增强的多模态transformer解决图像中阅读文本以进行问答的问题。具身任务也需要结构化模型,并提出了第7章中用于导航指令跟随任务的说话者-追随者模型,其中说话者模型和追随者模型相辅相成。在所有这些场景中,通过考虑任务和输入模态中的结构,所提出模型的表现和泛化能力明显优于非结构化的对应模型。
在这里插入图片描述
论文题目:Structured Models for Vision-and-Language Reasoning

作者:Ronghang Hu

类型:2020年博士论文

学校:University of California, Berkeley(美国加州大学伯克利分校)

下载链接
链接: https://pan.baidu.com/s/1LUEKB_hMB-N6kLycSv5Ehg?pwd=5swk

硕博论文汇总
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

在这里插入图片描述
说明:经过大厅餐桌。走进卧室。在表前左转,在浴室门口等候。
图1 - 1:遵循自然语言指令的机器人代理在具身环境中导航(如红色箭头所示向左移动)为了完成任务,智能体需要联合感知、理解和推理视觉输入和语言命令。

在这里插入图片描述
图2.1:给定一幅图像和一个表达式,我们学习将表达式解析为带有注意力的主题qsubj、关系qrel和对象qobj的向量表示,并使用两种类型的模块将这些文本组件对齐到图像区域。定位模块输出每个单独区域的分数,而关系模块产生区域对的分数。这些输出被整合为基于区域对的最终得分,产生最高的区域对作为基础结果。(彩色效果最佳。)

在这里插入图片描述
图2 - 2:模型的详细说明。(a)模型学习将表达式解析为主体、关系和客体,并注意语言表示(第2.3节)。(b)定位模块将主体或物体与每个图像区域匹配,并返回一元分数(第2.3节)。© relationship模块将关系与一对区域进行匹配,并返回成对得分(第2.3节)。

在这里插入图片描述
图2.3:对于(a)中的图像和表达式“红色圆的绿色右边”,(b)仅使用定位模块在5 × 5网格上每个位置的基线分数(越深越高),(c, d)使用我们的完整模型对ssubj和sobj进行分数。Ssubj在红色圆圈右边的绿色方块上最高,而sobj在这个红色圆圈上最高。

在这里插入图片描述
在这里插入图片描述
图2.4:在弱监督下训练的可视化可视化基因组数据集中的基础关系表达(subject-GT)。(a, b)真实区域对和我们的预测区域对(主体在红色实框中,对象在绿色虚线框中)。©主题、关系和对象在Eqn. 2.4-2.6中的注意力权重(颜色越深越高)。

图片
图2 - 5引用Google-Ref数据集中的表达式示例左列显示真实区域,右列显示实框中接地的对象区域(我们的预测),虚线框中显示接地的对象区域。如果预测的主题区域与真实区域匹配,则预测被标记为正确。

在这里插入图片描述
图2 - 6:Visual-7W数据集中指向问题的例子左栏为4个选择项(黄色为真实答案),右栏为被接地区域(预测答案),虚线框为被接地区域。如果预测的主题区域与真实区域匹配,则预测被标记为正确。

在这里插入图片描述
图3 - 1:对于每个实例,我们的模型预测一个计算表达式和一系列细心的模块参数化。用这些来组装一个具体的网络架构,然后执行组装好的神经模块网络来输出视觉问答的答案。(该示例显示了我们的模型预测的真实结构,为了清晰起见,对文本注意力图进行了简化。)

在这里插入图片描述
图3 - 2模型概览该方法首先计算问题的深度表示,并将其作为用循环神经网络实现的布局预测策略的输入。该策略发出一系列结构化动作(以反向波兰表示法为模块化神经网络指定模板)和一系列注意力动作(从输入句子中提取这些神经模块的参数)。这两个序列被传递给网络构建器,它动态实例化适当的神经网络,并将其应用于输入图像以获得答案。

在这里插入图片描述
图3 - 3:一个展示了如何将任意布局表达式线性化为模块标记序列的示例

在这里插入图片描述
图3.4:在两种训练设置下,我们的模型在SHAPES数据集上预测的布局示例(第3.4节)。

在这里插入图片描述
图3 - 5 CLEVR数据集上的问答示例在左侧,可以看到模型成功定位了哑光绿球,并注意到其他所有相同大小的物体,然后正确识别出这样的物体有4个(不包括初始的球)。在右侧,可以看到各种模块类似地假定了直观的语义。特别有趣的是第二个find模块,它除了金属红色的东西外,还拾取了单词right:这表明模型可以利用这样一个事实,即下游计算将查看检测到的物体的右侧,以将其初始搜索集中在图像的左半部分,这一行为由我们的注意力方法支持,而不是对问题的传统语言分析。

在这里插入图片描述
图3 - 6:一个示例说明了使用强化学习进行端到端优化的第二阶段(顶部行)之前和之后(中间行)的布局变化。在端到端学习之后,布局策略插入一个新的过滤器模块,在将其输入最终的比较模块之前删除对非目标区域的注意力,纠正之前的错误。

在这里插入图片描述
图3 - 7 VQA数据集上的模型示例

在这里插入图片描述
图4.1:我们的模型通过将推理过程分解为几个子任务,每个子任务由一个神经模块解决,揭示了可解释的子任务结构。它可以同时回答视觉问题和地面参照表达。

在这里插入图片描述
图4 - 2模型概览该模型通过模块权重w(t)预测连续布局,并使用内存栈以软方式执行模块。

在这里插入图片描述
图5 - 1在这项工作中,我们通过依赖输入语言的动态方式在相关对象之间发送消息,为对象创建了上下文感知的表示。在左边的例子中,传递的第一轮消息根据拿着蓝色雨伞的女人(绿色箭头)用对象3的特征更新对象2(绿色箭头),第二轮根据左边的人(红色箭头)用对象2的特征更新对象1(红色箭头)。最终的答案预测可以通过在最相关的对象(蓝框)上的一次注意力跳跃进行。

在这里插入图片描述
图5 - 2:我们提出了语言条件图网络(LCGN)来解决VQA和REF等推理任务。我们的模型通过以输入文本为条件的迭代消息传递,为每个对象i构建了一个上下文感知的表示xout i。在消息传递过程中,每个对象i由局部特征xloc i和上下文特征xctx i;t表示。在每次迭代中,每个对象j向每个对象i发送一个消息向量m(t) j;i, i收集该消息向量用于更新其上下文特征xctx i;t。将局部特征xloc i和最终的上下文特征xctx i;T组合成一个联合上下文感知特征xout i,用于VQA或REF的简单任务特定输出模块。

在这里插入图片描述
图5 - 3:对VQA的GQA数据集进行验证划分的LCGN模型示例。在中间的4列中,每条红线都显示一条边j !i沿着连接边权重w(t) j;i超过阈值的消息传递路径(在N个检测到的对象之间)。每条线上的蓝色星形为发送节点j,线宽对应于其连接权重。在上面的示例中,人、大象和栅栏相互传播消息,而栅栏从t = 4的大象那里接收消息。在下面的例子中,飞盘在多轮中收集来自狗的消息作为上下文信息,并由单跳分类器拾取。最后一列中的红星(以及方框)显示了Eqn中单跳注意力i最高的对象。

在这里插入图片描述
图5 - 4:对VQA的CLEVR数据集进行验证划分的LCGN模型示例。中间的4列显示了连接边的权重w(t) j;i,类似于图5 - 3,其中蓝色的星号是发送节点。最后一列显示了在N = 1414特征网格上Eqn. 5.9中的单跳注意力i。在上面的示例中,在t = 1中,哑光球(最左边)从灰色金属球(相同大小)收集消息,然后在t = 3中,消息在哑光球的卷积网格内传播,可能是为了从灰色球中收集到的上下文。在下面的示例中,在t = 1中,所有四个球都试图在每个球区域的卷积网格内传播消息,在t = 2中,其他三个球(大小相同)从橡胶球(最左边)接收消息,并被单跳分类器拾取。

在这里插入图片描述
图6.1:与之前在TextVQA任务上的工作(例如[158])相比,我们的模型伴随着图像文本的丰富特征,在联合嵌入空间上用多模态transformer处理所有模态,而不是模态之间的成对融合机制。此外,答案是通过指针迭代解码来预测的,而不是在固定词汇表上进行一步分类或从图像中复制单个文本标记。

在这里插入图片描述
图6 - 2 M4C模型概览通过特定领域的嵌入方法,将所有实体(问题词、检测到的视觉对象和检测到的OCR标记)投影到一个公共的d维语义空间,并对投影的事物列表应用多个transformer层。基于transformer的输出,通过迭代自回归解码预测答案,在每一步中,模型要么通过动态指针网络选择一个OCR token,要么从其固定答案词汇表中选择一个单词。

在这里插入图片描述
图6 - 4:TextVQA验证集上M4C模型的定性示例(橙色单词来自OCR标记,蓝色单词来自固定答案词汇表)。与之前的工作LoRRA[158]相比,LoRRA[158]从训练集中选择一个答案或只复制一个OCR标记,该模型可以复制多个OCR标记,并通过迭代解码将它们与其固定词汇表相结合。

在这里插入图片描述
图7 - 1视觉-语言导航的任务是根据人类的自然语言指令执行一系列动作(在环境中导航)该方法由指令追随者模型(左)和说话人模型(右)组成。

在这里插入图片描述
图7 - 2我们的方法结合了指令跟随者模型和说话者模型。(a)说话人模型在人工描述的地面真实路线上进行训练;(b)为跟随者提供额外的合成指令数据以进行自助训练;©它还可以帮助跟随者解释含糊的指令,并在推理过程中选择最佳路线。详情参见第7.3节。

在这里插入图片描述
图7 - 3与低级视觉运动空间相比,全景动作空间(第7.3节)允许智能体对场景有完整的感知,并直接执行高级动作。

在这里插入图片描述
在这里插入图片描述
图7 - 4:在未见过的环境中,使用和不使用说话人模型进行语用推理的导航示例(颜色最直观)。(a)没有实用主义推理的跟随者误解了指令,走错了门,进入了一个没有床的房间。然后它停在一张桌子前(看起来像一张床)。(b)在说话者的帮助下进行语用推理,跟随者选择了正确的路线,进入正确的门,并在床上停下来。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
微信群

在这里插入图片描述
公众号
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值