Transformer系列--多模态多任务的统一Transformer“Transformer is all you need”

前言

一、Motivation

Transformer首先应用于sequence-to-sequence模型的自然语言处理领域。随着Transformer模型取得巨大的成功,现在该方法已经扩展到视觉领域,甚至还可以应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调,并获得良好的结果,但这种模型微调方法会导致为每个下游任务创建不同的参数集,而且大多Transformer模型仅限于单个领域或特定的多模态领域的任务。例如, V i T ViT ViT 专门用于视觉相关的任务, B E R T BERT BERT 专注于语言任务,而 V I L B E R T − M T VILBERT-MT VILBERTMT 只用于相关的视觉和语言任务。

一个随着而来的问题是:我们能否建立一个单一的Transformer,能够在多种模态下处理不同领域的广泛应用?

二、网络结构分析

最近,Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战,该模型在不同的模态下联合训练多个任务,并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。
该模型的网络结构。
提出的UniT结构是建立在传统的Transformer编码器-解码器架构上,包括每个输入模态类型的独立编码器,后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式:图像和文本。

  • 首先,卷积神经网络骨干网提取视觉特征;
  • 然后,BERT将语言输入编码成隐藏状态序列;
  • 然后,Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态);
  • 最后,Transformer解码器的表示将被传递到特定任务的头,该头将输出最终的预测。

三、实验结果分析

  • 从这个表格中可以明显的看出:多任务训练的UniT性能优于单独训练的目标检测和VQA
    多任务训练的

  • 基于UniT模型的目标检测与VQA的分析
    在这里插入图片描述

  • UniT模型在8个数据集的7个任务上的性能
    在这里插入图片描述

四、总结与反思

所提出的UniT 模型同时处理8个数据集上的7个任务,在统一的模型参数集下,每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构,向更通用的智能的目标迈进了一步。

五、参考文献

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值