![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 90
记录平时读论文的笔记
Encounter84
这个作者很懒,什么都没留下…
展开
-
Weakly Supervised Video Emotion Detection and Prediction via Cross-Modal Temporal Erasing Network阅读
自动预测用户生成视频 (UGV) 的情绪最近受到越来越多的关注。然而,现有的方法主要集中在几个关键的视觉帧上,这可能会限制它们对描述预期情绪的上下文进行编码的能力。为了解决这个问题,在本文中,我们提出了一种跨模式时间擦除网络,它不仅可以定位关键帧,还可以以弱监督的方式定位上下文和音频相关信息。具体来说,我们首先利用不同片段之间的模内和模间关系来准确选择关键帧。然后,我们迭代地删除关键帧,以鼓励模型专注于包含补充信息的上下文。对三个具有挑战性的视频情感基准的广泛实验表明,我们的方法比最先进的方法表现得更好。原创 2023-07-24 17:06:34 · 272 阅读 · 0 评论 -
Efficient Video Transformers with Spatial-Temporal Token Selection阅读笔记
Video Transformers在主要视频识别基准测试中取得了令人印象深刻的结果,但其计算成本很高。在本文中,我们提出了 STTS,这是一种令牌选择框架,它根据输入视频样本在时间和空间维度上动态选择一些信息丰富的令牌。具体来说,我们将令牌选择制定为排名问题,通过轻量级评分器网络估计每个令牌的重要性,并且只有得分最高的令牌才会用于下游评估。在时间维度上,我们保留与动作类别最相关的帧,而在空间维度上,我们识别特征图中最具辨别力的区域,而不影响大多数视频中以分层方式使用的空间上下文 变压器。原创 2023-06-26 16:38:24 · 854 阅读 · 0 评论