基于Transformer理解多模态大模型 2024

  1. 多模态大模型国内外发展现状

1.1 基于 Transformer Encoder 的多模态理解模型

随着基于 Transformer Encoder 的 BERT[59]的出现,基于大规模数据的自监督预训练模型显示出卓越的性能,除了在自然语言处理领域得到广泛应用外,在多模态领域也逐渐被采用。

基于TransformerEncoder 的多模态理解模型主要采用 Transformer 的 Encoder 部分作为模型架构,学习去理解多模态数据的语义及其关联。当前研究方法可以分为单流和双流两类。单流类方法将视觉和文本模态一起输入到编码器,代表性工作包括 VL-BERT ,VideoBERT ,UNITER 等。

VL-BERT 提出一种图像+文本的多模态预训练模型,该模型将图像的文本描述和目标区域作为 BERT 的输入,通过随机掩码(mask)掉文本单词和图像区域来进一步增强预训练模型。VideoBERT 首次提出视频+文本的预训练模型,使用融合文本信息和视频序列作为输入。

UNITER 提出了一种多任务的多模态预训练方法,相对于其它方法,作者增加了图文匹配模块,来更进一步建立图像与文本之间的联系。双流类方法将多个模态先单独编码,学习各自的特征表示,然后跨模态交互来对齐各个模态。代表性工作包括ViLBERT 、LXMERT 、CLIP 等。

ViLBERT 提出使用 Transformer Block 进行单模态独立编码与多模态交互编码的交叠结构;为了进行预训练,提出掩码预测和图文匹配预测两种预训练任务。LXMERT 呈现与 ViLBERT 类似的双流结构,主要的不同在于 LXMERT 引入视觉问答作为预训练任务,因而在下游的视觉问答任务能够实现比 ViLBERT 更高的性能。

CLIP模型是一个双塔结构,一条分支使用 ResNet/ViT 进行图像特征编码,另一条分支使用 BERT 进行文本特征编码,最后使用对比学习损失(contrastive loss)来学习不同模态的语义对齐。该模型在上亿量级的图文数据上进行预训练,在下游的检索任务上实现非常强的零样本(zero-shot)性能。

2.基于 Transformer 解码的多模态生成模型

随着 GPT 系列模型的发展,其强大的文本生成能力受到越来越多的关注。该系列模型采用 Transformer 的解码部分

GPT-3表明,语言可以用来指导大型神经网络执行各种文本生成任务。受此启发,研究者开始研究大规模预训练的多模态生成模型。最近,OpenAI机构发布基于大规模预训练的文本到图像生成模型—DALL-E 。

该模型使用了 GPT-3 的 120 亿参数版本,可以通过文本直接生成对应图像,被称作图像版 GPT。同时,DALL-E 也有能力对生成的图像中的物体进行操作和重新排列,也能创造出一些根本不存在的东西,比如一个鳄梨形状的扶手椅。虽然 DALL-E 在一定程度上提供了对少量物体属性和位置的可控性,但成功率取决于文字的措辞。

当引入更多的对象时,DALL-E 容易混淆对象及其颜色之间的关联,成功率会急剧下降。同期,清华大学和智源研究院提出 CogView 模型,采用和DALL-E 类似的结构(VQVAE+GPT),该模型在量化指标 FID、IS 上实现比 DALL-E 更好的结果,同时只需微调就能执行超分辨率、风格迁移等一系列任务。

  1. 基于 Transformer 编解码的多模态模型

基于 Transformer 编解码(Encoder-decoder)的多模态模型通过引入解码器结构来实现生成式预训练,更好地学习不同模态之间的关联,提升理解判别能力。代表性工作有 VL-T5 、E2E-VLP 、M6 等。VL-T5 使用编解码结构,将一系列多模态任务都统一建模为文本生成任务。

E2E-VLP 在编码端使用传统的掩码语言预测和图文匹配的预训练任务,在解码器端则是联合目标检测和语义描述作为预训练任务。阿里巴巴达摩院提出 M6 模型,共享编码器和解码器的参数,通过控制注意力掩码(attention mask)来控制不同的预训练任务。

4.知识引导的多模态预训练模型

已有的预训练模型很少考虑知识信息,其建模对象主要聚焦在原始信号上,较少利用语义知识单元建模。如果能够让模型学习到海量数据中蕴含的潜在知识,势必会进一步提升各个任务的效果。

近期,百度提出了基于知识增强的 ERNIE 模型,通过建模海量数据中的实体概念等先验语义知识,学习真实世界的语义关系。具体来说,ERNIE 模型通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,增强了模型语义表示能力。

清华同样提出了一个知识增强的 ERNIE 模型,与百度所提出的 ERNIE 不同的是,该模型修改了 BERT 的结构,将知识图谱引入到了模型中,能同时在大规模文本语料库和知识图谱上预训练语言模型。具体而言, ERNIE分为抽取知识信息与训练语言模型两大步骤。

步骤一,对于抽取并编码的知识信息,首先识别文本中的命名实体,然后将这些提到的实体与知识图谱中的实体进行匹配。 通过知识嵌入算法编码知识图谱的图结构,并将多信息实体嵌入作为 ERNIE 的输入。基于文本和知识图谱的对齐,ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。

步骤二,与 BERT 类似,采用了带 Mask 的语言模型,以及预测下一句文本作为预训练目标。 除此之外,为了更好地融合文本和知识特征,研究者设计了一种新型预训练目标,即随机 Mask 掉一些对齐了输入文本的命名实体,并要求模型从知识图谱中选择合适的实体以完成对齐。

现存的预训练表征模型只利用局部上下文预测 Token,但 ERNIE的新目标要求模型同时聚合上下文和知识事实的信息,并同时预测Token 和实体,从而构建一种知识化的表征模型。

5.引入额外信息源的多模态模型

为了增强特征表示的学习,一些研究工作考虑引入额外的信息源。比如,微软和华盛顿大学提出 OSCAR 模型,引入目标类别标签(object tags)作为桥梁,来连接视觉和文本模态,帮助更好地对齐不同模态的语义。百度和悉尼科技大学提出 ActBERT 模型,引入行为特征帮助学习更好的视频语义表示。

6. 大规模超参模型的优化方法与泛化理论

训练大规模模型的实用型方法研究方面大致有三类。

一、增加batch 的大小同时相应地改变学习率,结合非同步并行算法如 Hogwild训练来提高并行效率,加快训练速度;

二、考虑逐步增加模型规模,先快速训练较小规模的模型(如低分辨率的图像模型),再通过适当规则逐步增加模型规模,从而减少直接训练大规模模型所消耗的时间,同时最优参数也可以通过小模型到大模型的变换来得到经验的最优规律;

三、将模型分解,按不同层分块训练,在训练底层模块时不需要高层模块的梯度反传信息,从而降低模型规模,减小因现存带来的限制因素。

在理论分析方面,由于模型参数量的巨大,随机的训练方法由于大数定律在整体的模型性能层面有着确定性的规律,从而使得分析训练神经网络的收敛性成为可能。

早期的工作中,该方法在 2 层无限宽的网络中得到了严格证明,在最近的工作里,该方法扩展到了少数层无限宽网络的有监督训练中。相关的方法也被用来分析无监督模型,如 ICA和对抗生成模型,发现适当增加输入噪音或合理增大学习率有助于随机梯度算法的收敛。

目前,类似的理论在无监督/自监督预训练模型上的应用还少有出现。此外,用千万量级数据训练千亿量级参数的超参数模型时,如何防止过拟合也是很多人关注的问题。

目前的理论研究主要有两个观点,一类是训练模型的随机梯度算法本身提供了隐式的正则化,另一类是神经网络结构使得模型参数数量并不能很好地描述模型复杂度,特别是当模型的channel足够大时,神经网络模型可以近似看作是一个核方法(kernelmethod),抑或是两个观点均起到作用。

目前的研究在随机初始化的超宽网络上有一定进展,但如何将相关的理论进展转化为帮助实际的大规模模型提高泛化能力的实用型技术进展仍然较少。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。

路线图很大就不一一展示了 (文末领取)
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥两本《中国大模型落地应用案例集》 收录了近两年151个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述

👉GitHub海量高星开源项目👈

💥收集整理了海量的开源项目,地址、代码、文档等等全都下载共享给大家一起学习!
在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告(持续更新)👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:

这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

### 基于Transformer架构的多模态语义通信模型 #### 多模态预训练的发展趋势 自2018年以来,自然语言处理领域见证了BERT模型的成功应用,该模型采用双向Transformer结构并引入self-attention机制以增强上下文关联度[^1]。然而,在视觉与语言融合的方向上,尚未形成广泛认可的基础框架。为了填补这一空白,研究者们开始探索能够同时理解图像和文字信息的新方法。 #### 跨模态交互视角下的VLP模型分析 近期有关视觉-语言预训练(Vision-Language Pretraining, VLP)的研究不仅关注特定应用场景中的技术实现细节——比如数据源的选择、编码方式的设计等;更重要的是尝试从更深层次探讨不同类型的注意力机制是如何促进两种异构表征之间有效沟通的[^2]。这种深入剖析有助于揭示哪些设计决策对于构建高效能的跨媒体感知系统至关重要。 #### 构建完整的收发流程 在一个典型的基于Transformer多模态语义通讯体系里,接收端同样扮演着不可或缺的角色。它通常配备有专门负责解析输入信号含义的功能模块(即信道解码器),以及用来恢复原始内容形态的知识库。后者尤其重要因为它可以根据给定的文字描述精确重构对应的图形化表达形式[^3]。 ```python # 这是一个简单的Python代码片段展示如何加载预训练好的transformer模型来进行图文匹配任务 from transformers import CLIPProcessor, CLIPModel model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") image_path = "example_image.jpg" text_input = ["a photo of a cat", "an image containing dog"] inputs = processor(text=text_input, images=image_path, return_tensors="pt", padding=True) outputs = model(**inputs) logits_per_image = outputs.logits_per_image # this is the image-text similarity score probs = logits_per_image.softmax(dim=1) # we can take the softmax to get probability distribution over texts print(probs) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值