ERNIE-VIL 2.0: MULTI-VIEW CONTRASTIVE LEARNING FOR IMAGE-TEXT PRE-TRAINING

论文:https://arxiv.org/pdf/2301.12597.pdf
代码:GitHub - PaddlePaddle/ERNIE: Official implementations for various pre-training models of ERNIE-family, covering topics of Language Understanding & Generation, Multimodal Understanding & Generation, and beyond.

引言:


  • 正如人可以通过不同的描述或图片去认识真实世界一样,图像或文本同样存在多个不同的视角,单一的视角不能很好的构建模态之间的关系

  • 本文提出一种多视角的多模态对比学习方法,通过构建多个视角信息去增强模态间/模态内的特征表示。

  • 模型优势:

    • 首次提出多视角跨模态对比学习方法,提升特征鲁棒性

    • 引入实体标签文本序列,有效缩小图像-文本之间的语义鸿沟,简化大规模噪声数据上跨模态对齐的学习。

模型结构:


模块组成:

  1. 双塔结构

  2. 一个Image Encoder,抽取图像特征

  3. 一个Text Encoder,抽取文本特征

模块训练:

  • 训练数据:图像文本pair对

  • 构造了包括图像和文本在内,总共六个视角特征进行训练:

    • 图像增强:对图像进行数据增强两次,如随机crop、图片抖动等

    • 文本增强:对caption文本进行两次dropout,得到两个不同视角的文本表征

    • 特殊文本序列:由固定prompt(如:该图片包含...)和实体标签短语组成(预训练实体检测器得到)的句子,同样进行两次dropout,得到两个不同视角的文本表征。

      • 好处:1.特殊文本序列可看作包含粗粒度信息的文本单元,用于连接caption中的细粒度语义和图像中的抽象视觉概念,从而达到简化多模态对齐的目的。2.提供很多caption中遗漏的信息。3.图像特征需要包含更多信息。

训练Loss:

其中$(I_{v1}, I_{v2})$和$(T_{v1}, T_{v2})$分别是图像和文本模态内的正样本对,$(I_{v1}, T_{v1})和(I_{v2}, T_{v2})$表示模态间的正样本对,对于caption跟tag文本序列,训练每轮迭代会随机采样取一个

其中x,y为S集合中的某个pair对,最终每个loss加权得到最终的loss

模型实验


消融实验

中文图像文本检索

检索样例

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ERNIE-Bot-turbo是一种基于百度AI技术ERNIE(Enhanced Representation through Knowledge Integration)的聊天机器人,它可以进行智能对话和知识问答。ERNIE-Bot-turbo在原有ERNIE-Bot的基础上,通过使用更大的预训练模型ERNIE2.0和更多的训练数据,提高了对话和问答的准确性和流畅性,同时还增加了多轮对话和情感分析等功能。以下是关于ERNIE-Bot-turbo的一些信息: - ERNIE-Bot-turbo的提问方式与普通聊天机器人相同,用户可以直接在对话框中输入问题或语句,ERNIE-Bot-turbo会自动进行分析并给出回答。 - ERNIE-Bot-turbo的知识库涵盖了广泛的领域,包括文化、科技、体育、社会、历史等多个方面,用户可以向ERNIE-Bot-turbo提出不同领域的问题。 - ERNIE-Bot-turbo支持多轮对话,可以针对用户的问题进行追问和回答,实现更加流畅的对话。 - ERNIE-Bot-turbo还具有情感分析功能,可以识别用户的情感状态并根据情感状态给出不同的回答,增强了对话的真实感和情感交互性。 下面是一个样例对话: 用户:你好,请问你叫什么名字? ERNIE-Bot-turbo:你好,我是ERNIE-Bot-turbo,很高兴为您服务。 用户:你会哪些知识领域? ERNIE-Bot-turbo:我的知识库涵盖了广泛的领域,包括文化、科技、体育、社会、历史等多个方面,您可以向我提出不同领域的问题。 用户:你会情感分析吗? ERNIE-Bot-turbo:是的,我能够识别您的情感状态并根据情感状态给出不同的回答,增强了对话的真实感和情感交互性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值