ERNIE-VIL 2.0: MULTI-VIEW CONTRASTIVE LEARNING FOR IMAGE-TEXT PRE-TRAINING

最新推荐文章于 2024-09-30 13:49:56 发布

will-wil

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量373

点赞数 3

分类专栏：论文阅读文章标签：人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/136355770

版权

论文阅读专栏收录该内容

10 篇文章 0 订阅

订阅专栏

论文：https://arxiv.org/pdf/2301.12597.pdf
代码：GitHub - PaddlePaddle/ERNIE: Official implementations for various pre-training models of ERNIE-family, covering topics of Language Understanding & Generation, Multimodal Understanding & Generation, and beyond.

引言：

正如人可以通过不同的描述或图片去认识真实世界一样，图像或文本同样存在多个不同的视角，单一的视角不能很好的构建模态之间的关系
本文提出一种多视角的多模态对比学习方法，通过构建多个视角信息去增强模态间/模态内的特征表示。
模型优势：
- 首次提出多视角跨模态对比学习方法，提升特征鲁棒性
- 引入实体标签文本序列，有效缩小图像-文本之间的语义鸿沟，简化大规模噪声数据上跨模态对齐的学习。

模型结构：

模块组成：

双塔结构
一个Image Encoder，抽取图像特征
一个Text Encoder，抽取文本特征

模块训练：

训练数据：图像文本pair对
构造了包括图像和文本在内，总共六个视角特征进行训练：
- 图像增强：对图像进行数据增强两次，如随机crop、图片抖动等
- 文本增强：对caption文本进行两次dropout，得到两个不同视角的文本表征
- 特殊文本序列：由固定prompt（如：该图片包含...）和实体标签短语组成（预训练实体检测器得到）的句子，同样进行两次dropout，得到两个不同视角的文本表征。
  - 好处：1.特殊文本序列可看作包含粗粒度信息的文本单元，用于连接caption中的细粒度语义和图像中的抽象视觉概念，从而达到简化多模态对齐的目的。2.提供很多caption中遗漏的信息。3.图像特征需要包含更多信息。

训练Loss：

其中$(I_{v1}, I_{v2})$和$(T_{v1}, T_{v2})$分别是图像和文本模态内的正样本对，$(I_{v1}, T_{v1})和(I_{v2}, T_{v2})$表示模态间的正样本对，对于caption跟tag文本序列，训练每轮迭代会随机采样取一个

其中x,y为S集合中的某个pair对，最终每个loss加权得到最终的loss

模型实验

消融实验

中文图像文本检索

检索样例

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。