（论文阅读笔记）Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language-CSDN博客

本文链接：https://blog.csdn.net/weixin_44876302/article/details/122649515

https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
本文仅为翻译

摘要

虽然自我监督学习的总体思想在不同的模式中是相同的，但实际的算法和目标却有很大的不同。为了让我们更接近于一般的自我监督学习，我们提出了data2vec，一个对语音、NLP或计算机视觉使用相同学习方法的框架。其核心思想是使用标准Transformer体系结构下的自蒸馏（self-distillation），根据输入的隐藏视图预先记录完整输入数据的潜在表示。Data2Vec预测的是包含整个输入信息的情境化潜在表示，而不是预测特定于模态的目标，如单词、视觉标记或人类语音单元（本质上是局部的）。

1 简介

为了更接近以更通用的方式学习环境的机器，我们设计了data2vec，这是一个通用自监督学习框架，适用于图像、语音和文本，其中学习对象在每种模式中都是相同的。目前的工作统一了学习算法，但仍然分别学习每个模态的表示。我们希望，单一算法将使未来的多模式学习更简单、更有效，并通过多种模式产生更好地理解世界的模型。

我们的方法将Mask预测与潜在目标表示的学习相结合，但通过使用多个网络层作为目标对后者进行了推广，并表明该方法可以跨多模态工作。具体来说，我们训练一个现成的Transformer网络，我们在教师或学生模式下使用它（图1）：

我们首先构建完整输入数据的表示，其目的是作为学习任务的目标（教师模式）。接下来，我们对输入样本的Masked版本进行编码，用它预测完整的数据表示（学生模式）。教师的权重是学生的指数衰减平均值。由于不同的模态具有非常不同的输入，例如像素与单词，我们使用文献中的模态特定特征编码器和Mask策略。由于我们的方法适用于学习者自身的潜在网络表示，因此可以将其视为许多特定于模态