讲座笔记:视觉-语言导航新进展:Pre-training与Sim2Real

汇报人:吴琦

讲座回放:青源Talk第12期|吴琦:视觉-语言导航新进展:Pre-training与Sim2_哔哩哔哩_bilibili

主题:

        ①Pre-training:探索order与history在预训练中的作用

        ②Sim2Real:减小离散环境和连续环境之间的gap

VL Pre-training

注意两个数据集的差异

VLN与普通VL的区别:①依赖于“过去的经验”(部分可见的马尔科夫过程);②与空间时序信息有关

提出了新的预训练范式:三种下游任务;五种预训练任务(其中③④⑤是新提出的)

 

HOP与之前工作的区别:三个预训练任务,考虑了VLN与VL的区别

 

HOP框架:

 

Architecture:

注意语言端是position,视觉端为orientation

MLM:对某些词进行mask,要求AI根据环境信息进行还原

 

TIM:判断instruction是否与一系列的图像匹配

         

TOM:随机打乱场景顺序,让AI进行排序

 

GOM:粗粒度的TOM,将group分成两部分打乱;输入instruction与group,判断group为next、previous还是random(即group与instruction无关)

 

APH:给定history和、instruction和全景图片,让AI判断next view的方向(在全景图片中的方向,一般分为12个)

   

Sim2Real

 如何要提出这个问题:离散环境与连续环境之间存在gap ,连续环境中需要做的决策会多很多,出错概率较大

 

如何解决:在连续的空间中预测离散的点,利用了深度图等信息

 如何预测candidate waypoint

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值