InfoNCE本质上是做一个Instance Discrimination,从样本出发经过data augmentation之后生成positive ,然后再通过cross etropy分类使其概率最大。但是存在一个问题,即负样本中存在许多样本与样本的semantic label应该是一样的,故作者提出了一个supervised contrastive learning的形式(UberNCE),将semantic label相同的样本当作positive,不同的则当作negative.
而rgb和flow(光流)存在一定的互补能力,如下所示,semantic label相同的两个样本在rgb空间上距离很远,但是在flow空间上距离很近。
故本文章提出训练两个网络,RGB和光流的网络之间co-training,为对方挖掘positive的样本。
一开始时使用Info