【笔记】Multimodal Keyless Attention Fusion for Video Classification
最近马上要开题了,导师的要求是群组行为识别方面。奈何本人研一全浪费了,现在开始恶补论文,顺手写一下,做个笔记,不喜勿喷。本片论文是发表在AAAI-18上的一篇文章,清华大学出品。基于注意力机制的多模式融合,视频本身就是多模式的,包括视觉和声音等,单纯的考虑一种模式并不全面。![本图提供了两个视频中不同时间段的图像示例,显示了每种模态的重要性如何随时间变化。](https://img-blog....
翻译
2018-09-06 11:26:29 ·
1416 阅读 ·
0 评论