Spatio-Temporal graph for video captioning with knowledge distillation
视频描述是一项要求对视觉场景有一个深度理解的具有挑战性的任务。最先进的生成描述的方法要么使用场景级要么使用对象级信息,然而却没有清晰地建模对象的相互作用。因此,他们往往无法做出有视觉根据的预测,并且对虚假的相关性很敏感。在这篇文章中,我们提出一个新颖的视频描述的时空图模型,该模型利用了时空中对象间的相互作用。我们的模型建立了可解释的连接,并能够提供明确的视觉根据。为了避免因对象数量变化而导致性能不稳定,我们进一步提出了一种基于局部对象信息的全局场景特征正则化的对象感知知识蒸馏机制。我们通过在两个基准上的大量
原创
2020-04-10 16:20:47 ·
1714 阅读 ·
3 评论