DeepMind AI 关系推理超越人类：深度神经网络模块即插即用

最新推荐文章于 2024-08-19 07:36:20 发布

阿炜

最新推荐文章于 2024-08-19 07:36:20 发布

阅读量2.9k

点赞数

分类专栏：深度学习机器学习图形图像文章标签：神经网络深度学习 ai class cnn

图形图像同时被 3 个专栏收录

39 篇文章 2 订阅

订阅专栏

机器学习

33 篇文章 0 订阅

订阅专栏

深度学习

23 篇文章 0 订阅

订阅专栏

来源：新智元

【新智元导读】DeepMind 今天发表官博介绍了他们的两篇最新论文，称其都在理解“关系推理”这一挑战方面展示出了令人可喜的结果。一个是视觉互动网络 VIN，能够预测视觉场景中各个物体在未来几百步所处位置，另一个则是模块化的、具有关系推理能力的深度神经网络架构 RN，可以“即插即用”，提升其他深度神经网络结构（如 CNN）关系推理的能力。在李飞飞等人提出的图像理解数据集 CLEVR 测试结果表明，RN 的总体推理正确率已经达到 95.5%，超越人类水平。

　　研究一：视觉互动网络 VIN，从原始视觉观察中学习真实物理机制的通用模型

　　首先看《视觉互动网络》（Visual Interaction Networks）。

　　DeepMind 官方博客中称，理解关系推理的一大关键因素是，预测未来一个真实场景中发生了什么。

　　只看一眼，人类不仅能够推断出物体接下来几秒钟、几分钟乃至更长时间所处的位置，还能够预测接下来发生了什么。

　　例如，对着墙踢一个球，大脑能够预测到球碰到墙以及接下来球和墙两者的走向：球会根据入射角度、速度反弹，而墙应该还会在那里不动。

　　这些预测虽然简单，但都是由一套复杂的认知系统所引导的。

　　由此，DeepMind 的相关研究人员开发了“视觉互动网络”（Visual Interaction Network，VIN），能够简单模拟大脑的推断系统。

　　VIN 能够根据几帧连续的视频，推断（infer）上面多个物体接下来所处的位置。

　　这与生成模型不同，生成模型生成的结果是从视觉上“想象”出来的，而 VIN 则是根据物体彼此之间的基本关系演化推断出的。

　　左边是真实结果（ground-truth），右边是 VIN 的预测。在连续大约 150 帧的视频中，VIN 给出了极为接近的模拟，这之后的预测结果从肉眼看来也算是合理的。来源：deepmind.com

　　VIN 由两大机制组成：一个视觉模块和一个现实推理模块（physical reasoning module）。结合在一起，VIN 的两大模块能够处理一段视觉场景，并且预测其中每个不同物体在现实物理规律下会发生的情况。

　　DeepMind 研究人员在各种不同的环境中测试了 VIN，包括弹跳台球、有弹簧连接的质体，以及行星引力系统。结果表明，VIN 可以准确预测物体在未来几百步（hundreds of steps）会发生的情况。

　　论文：视觉互动网络

　　作者在摘要中写道，只需一眼，人类便能对一系列不同的物理系统的未来状态做出各种各样的预测。另一方面，来自工程、机器人和图形学的现代方法通常局限于狭窄的领域，需要直接测量底层状态（underlying state）。

　　我们提出了视觉互动网络（Visual Interaction Network，VIN），一个用于从原始视觉观察中学习物理系统动态机制的通用模型。

　　VIN 由基于卷积神经网络的感知前端（a，见上）和基于交互网络的动态预测器（b，见下）组成。通过联合训练，感知前端学会了将动态视觉场景解析为一组特殊的物体表征。动态预测器则通过计算物体之间的相互作用和力学关系，学习将这些状态向前推进，从而产生任意长度的预测物理轨迹。

　　作者发现，在只有 6 帧输入视频的情况下，VIN 可以生成各种物理系统中几百个时间步长的预测轨迹，而且这些轨迹都是准确的。

　　VIN 也可以应用于物体不可见的场景当中，从而根据可见物体预测不可见物体的未来状态，由此隐含地推断未知物体的质量。研究结果表明，感知模块和基于物体动态机制的预测模块引入的物体表征能够进行精确的动态预测。这项工作为复杂物理环境中，根据原始感官观察的输入，进行基于模型的决策和规划开辟了新的机会。

VIN 的架构示意图

　　研究二：模块化、具有关系推理能力的深度神经网络架构 RN

　　再来看《用于关系推理的简单神经网络模块》。

　　作者的摘要中写道，关系推理（Relational Resoning）是通用智能行为的核心组成部分，但此前研究证明难神经网络很难学习做关系推理。在本文中，我们描述了如何使用关系网络（Relation Network，RN）作为简单的即插即用模块，从根本上解决依赖于关系推理的问题。

　　我们在 3 个任务中测试了 RN 增强的网络：

　　使用 CLEVR 这一具有挑战的数据集回答视觉问题，实现了当前最好的结果，而且超越人类水平；

　　使用 bAbI 任务进行基于文本的问答；

　　关于动态物理系统的复杂推理。

　　然后，我们专门整理了一个类似 CLEVR 的数据集 Sort-of-CLEVR，并在这一数据集上展示了卷积神经网络不具备解决关系问题的通用（general）能力，但在使用 RN 增强以后，就能获得关系推理的能力。

　　我们的工作表明了，配备 RN 模块的深度学习架构能以怎样的方式隐含地（implicitly）发现并且学习去推理实体及其关系。

　　3 种不同标准测试，CLEVR 数据集关系推理能力超越人类

　　任务一：Sort-of-CLEVR 数据集

　　为了探索我们的假设，RN 架构比更标准的神经网络架构更擅于进行一般的（general）关系推理，我们构建了一个类似于 CLEVR 的数据集，称之为“Sort-of-CLEVR”。

　　Oort-of-CLEVR 数据集的主要特点是区分了相关和不相关的问题。该数据集由 2D 彩色图像及与图像有关的问题和答案组成。每个图像共有 6 个物体，其中每个物体都是随机选择的形状（正方形或圆形）。作者使用 6 种颜色（红、蓝、绿、橙、黄、灰）标识每个物体。

　　为了避免进行复杂的自然语言处理，问题是手工编码决定的。此外，在图像方面，数据集也做了简化处理，降低了图像处理中涉及的复杂问题。

　　每个图像都有 10 个关系问题和 10 个非关系问题。例如，关系问题有“与灰色物体最远的物体的形状是什么？”“有多少个物体与绿色物体具有相同的形状？ ”非关系问题的例子是：“灰色物体的形状是什么？”和“有蓝色物体在场景的顶部或底部吗？”

CLEVER 数据集图像理解问题举例

　　任务二：bAbl 问答数据集

　　bAbI 是一个纯文本的 QA 数据集。其中，有 20 个任务，每个任务对应于一种特定类型的推理，如推论（deduction）、归纳（induction）或计数（counting）。每个问题都与一组支撑事实有关。例如，事实“Sandra 拿起了足球”和“Sandra 去办公室了”支撑问题“足球在哪里”（答案：“办公室”）。

　　如果完成一个任务的准确率超过了 95％，模型就算成功了。

　　许多记忆增强的神经网络（Memory-augmentated neural network），在 bAbI 上都取得了很好的成绩。当每个任务使用 10K 数量级样本进行联合训练时，Memory Network 的成绩是 14/20，DeepMind DNC 是 18/20，稀疏 DNC 是 19/20，还有 EntNet 是 16/20。