视觉溯因推理

最新推荐文章于 2024-04-26 16:08:14 发布

VIP文章右边是我女神

最新推荐文章于 2024-04-26 16:08:14 发布

阅读量320

点赞数

分类专栏： Res 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46365033/article/details/131805131

版权

文章目录

Visual Abductive Reasoning

Visual Abductive Reasoning

Abstract

给定包含一系列事件的视频序列，对其中存在因果性的事件进行遮蔽操作，模型需要给出其余事件描述的同时，给出遮蔽事件的描述。

本文提出的REASONER模型包含以下两种结构：

对于视觉Token的编码器（Transformer结构），设计了上下文的、方向的位置编码策略；
解码器（Transformer结构），设计了级联的策略，一阶段用于生成基本的语言Token，后续不断进行优化。关于优化，本文采用句子的置信度分数来引导句子之间的信息传递。

Introduction

VAR的难点在于：

VAR需要想象在观察之外找到假设；
VAR 旨在发现观察到的事件之间合理的因果结构；
VAR 与日常情况下的人类推理类型更相关，此时手头的信息通常不完整，无法得出绝对某些结论。

Related Work

相关的工作包含：

密集视频描述（DVC）：通过多句段落描述视频中的所有事件；
上下文相关的文本生成：句子填空、篇幅填空、反事实故事生成、归因文本生成；
视觉未来/状态预测。

VAR Dataset

Youtube生活视频，包含了丰富的社会场景和人类活动；
电视节目和电影视频，包含丰富的种类；

Methodology

因果注意的编码器

相对位置编码的衍生，用于建模因果链。

$U_{nm}=F_{Rcl}(n,m,X_n)=X_n R^T_{l(n,m)}$

其中， $R\in\mathbb{R}^{(2N-1)\times d}$ ，是一个可学习的矩阵， $l (n, m) = n - m + N$ 。

该编码最终与注意力矩阵相加：

最低0.47元/天解锁文章

右边是我女神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
视觉溯因推理

给定包含一系列事件的视频序列，对其中存在因果性的事件进行遮蔽操作，模型需要给出其余事件描述的同时，给出遮蔽事件的描述。对于视觉Token的编码器（Transformer结构），设计了上下文的、方向的位置编码策略；解码器（Transformer结构），设计了级联的策略，一阶段用于生成基本的语言Token，后续不断进行优化。关于优化，本文采用句子的置信度分数来引导句子之间的信息传递。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

右边是我女神 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。