目前video understanding 中存在一个context bias的一个问题,即网络判断动作的时候并不是根据动作motion信息判断,而是根据context 静态场景判断。故本文提出了一个pretext task,直接使用compressed video中的key frame 和motion vector来进行对比学习,以此摆脱context bias这个问题。任务有两部分,context matching 和motion prediction两部分。
主要框架:
context matching:关键帧的特征和video clip提取出来的特征来进行contrastive learning,由于维度不同,所以需要经过全局池化并且MLP,使两个feature的维度相同,之后再进行contrastive learning
Motion Prediction:从当前的video clip