
Predicting Human Scanpaths in Visual Question Answering
注意力是人类和计算机视觉系统中的重要机制。尽管当前最先进的模型关注通过自由观察行为估计静态概率显著性图,现实场景中充满了类型和复杂性各异的任务,视觉探索是一个影响任务表现的时间过程。为弥合这一差距,我们首次研究和预测人类在执行通用任务时的眼动时间序列(即注视路径),并探讨注视路径如何影响任务表现。我们提出了一种新的深度强化学习方法,用于预测视觉问答任务中导致不同表现的注视路径。在任务引导图的条件下,所提出的模型学习特定问题的注意力模式以生成注视路径。

























