论文:《ThreeDWorld: A Platform forInteractive Multi-Modal Physical Simulation》

摘要

TDW支持在丰富的三维环境中模拟移动智能体和对象之间的高保真感觉数据和物理交互。独特的特性包括:实时接近照片真实感的图像渲染; 对象和环境的库,以及用于定制它们的例程; 创建新环境类的生成过程; 高精度音频渲染; 各种物质类型的真实物理交互作用,包括布、液体和可变形物体;具身智能体的可定制“智能体”; 并支持人类与VR设备的交互。 TDW的API允许多个智能体在模拟中交互,并返回代表世界状态的传感器和物理数据范围。 我们介绍了TDW在计算机视觉、机器学习和认知科学等新兴研究方向上的初步实验,包括多模态物理场景理解、物理动力学预测、多智能体交互、“像孩子一样学习”的模型,以及人类和神经网络的注意力研究。

介绍

原则上,一个系统可以被训练在一个模拟器中看东西,在另一个模拟器中导航,在第三个模拟器中操纵物体。

这些应用包括:1)在与ImageNet相当的TDW图像分类数据集上训练学习的视觉特征表示,用于细粒度图像分类和目标检测任务; 2)利用TDW处理复杂物理碰撞和非刚性变形的能力,通过TDW的音频冲击合成生成的冲击声音合成数据集,用于测试材料和质量分类; 3)在新环境中训练预测物理动力学的智能体; 4)TDW对多Agent的支持使得复杂的多Agent交互和社会行为得以实现; 5)将虚拟现实中的观察者与神经网络Agent进行注意力比较实验。

ThreeDWorld Platform

设计原则和系统概述

整合灵活。用户能够设置各种各样的物理场景,将任何类型的对象置于任何位置、任何状态,并具有可控的物理参数。

物理引擎。应该涵盖各种各样的对象相互作用。

有一个庞大的高质量资产库。

 交互和智能体

使用API命令直接控制对象行为

 使用基于物理的命令,用户可以通过施加给定大小和方向的冲力来移动物体。

通过智能体间接控制

智能体有以下几种类型:

1、用于生成第一人称渲染图像、分割和深度地图的无实体相机

2、基本的智能体,经常用于算法原型

3、更复杂的智能体

智能体可以在响应物理的同时在环境中移动,使用其物理驱动的连接能力来改变对象或场景状态,或者可以与场景中的其他智能体交互

在VR中,人类用户直接交互

TDW还支持用户使用VR直接与3D对象交互。 用户看到他们的手的3D表示,跟踪他们自己的手的动作(图1G)。 使用API命令,对象被“可抓取”,这样对象和虚拟手之间的任何碰撞都允许用户拿起、放置或扔。该功能允许收集人类行为数据,并允许人类与智能体交互。

示例应用程序

社交智能体和虚拟设备

社会互动是人类生活的一个关键方面,但也是人工智能和机器人技术目前方法特别有限的一个领域。模拟和模仿社会行为,并从社会互动中有效学习的智能体,因此是前沿技术发展的一个重要领域。

利用TDW的多智能体API的灵活性,我们创建了各种多智能体交互设置的实现(图1F)。 其中包括一个“观察者”智能体被安置在一个有多个无生命物体的房间里,与几个不同控制的“行动者”智能体一起(图5a)。 “行动者”智能体由硬编码或交互策略控制,实现对象操作、追逐和隐藏以及运动模仿等行为。 在这种情况下,人类观察者只被要求看他们想看的任何东西,而我们的虚拟观察者寻求最大限度地提高其预测同一显示中参与者行为的能力,根据“进展好奇心”[3]的度量来分配其注意力,该度量寻求估计哪些观察最有可能增加观察者做出参与者预测的能力。 主要的问题是,这种好奇心驱动的学习形式是否自然地产生了注意力模式,反映了人类在实验中第一次探索相同场景时如何分配注意力。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
AF(Association Fusion)是一种基于关联的多模态分类方法。多模态分类是指利用多种不同类型的数据(如图像、文本、音频等)进行分类任务。传统的多模态分类方法通常是将不同类型的数据分别提取特征,然后将这些特征进行融合得到最终结果。AF方法则是通过建立数据之间的关联来实现融合。 具体而言,AF方法首先将每个模态的数据进行特征提取,得到对应的特征向量。然后通过计算每个模态之间的相关度来建立模态之间的关联。这个相关度可以通过不同的方法来计算,例如互信息、皮尔逊相关系数等。 接下来,AF方法通过关联度来调整每个模态的权重。具体来说,权重与关联度成正比,关联度越高的模态将获得更大的权重。这样一来,每个模态的重要程度就会根据数据之间的关联度动态调整。 最后,AF方法通过将每个模态的特征与对应的权重进行加权融合,得到最终的特征向量。这个特征向量可以用于进行分类任务。 与传统的融合方法相比,AF方法能够更准确地捕捉到不同模态数据之间的关联信息。这样一来,融合后的特征向量能够更好地反映整个多模态数据的特征,提高分类准确率。 综上所述,AF是一种基于关联的多模态分类融合方法,通过建立数据之间的关联来动态调整每个模态的权重,从而提高多模态分类的准确率。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值