**本文内容仅代表个人理解,如有错误,欢迎指正**
1. Points
1) UNIMO是一个预训练模型,其输入可以有不同的形式(eg, Image collections, Text corpus, Image-Text Pairs),并且可以微调后用于单模态(Single-modal)任务与多模态(Multi-modal)任务。即不仅在预训练时利用了image-text pair的数据,还充分利用了大量单模态的数据(non-paired single-modal, like images and texts),使得不同模态之间的数据能够相互增强,从而得到更泛化的表示。
2) UNIMO利用跨模态对比学习(Cross-modal contrastive learning)的方法实现不同模态数据(eg, Image与Text)在不同层级的对齐与统一。
2. Background introduction
现有的预训练模型,大多都仅针对一种范式,即单模态或多模态,且不能有效地进行转换(即在单模态下预训练的模型难以用于多模态的任务,反之同理)。
适用于单模态的预训练模型有:
1) Computer Vision: Alexnet, VGG, ResNet, etc.
2) Natural Language Processing: BERT, RoBERTa, XLNet, UniLM, etc.
适用于多模态的预训练模型:
VilBERT(2019), VisualBERT(2019), UNITER(2020)
*UNIMO作者的动机:希望能够提出一个统一模态的预训练模型,能够同时适用于单模态与多模态的任务。
3. Main Components
3.1 Unified-Modal Transformer
从Figure 1中可以看到,UNIMO利用multi-layer self-attention Transformers来学习统一的语义表示,其
1)输入:可以是Images、Texts