初探AIGC 生成式AI

注:笔记,自用。

最近大模型很火呀,昨天看了今年的小米发布会/雷军年度演讲,想搞搞大模型看看,先看看综述了解一下学术方向,后面看看跟进实战应用。

主要从四个方面广泛了解AIGC:1.AIGC的核心技术  2.AIGC任务  3. AIGC应用  4.AIGC产品

AIGC核心技术

在技术层面上,属于生成AI的范畴。可以将具体技术大致分为两类:基础模型和生成技术。基础模型无法直接生成内容,但对于AIGC的开发是必不可少的,如Transformer模型; 生成技术是只能够生成各种内容的方法,如GAN模型、扩散模型。

基础模型

【骨干模型】

作为深度学习的两个主流领域NLP和CV,启发改进了各种主干体系结构。

  • RNN模型

    主要用于处理具有时间序列的数据,如语言或音频。由输入层、隐藏层、输出层组成。

  • Transformer模型

    采用注意力机制,目前在各领域大放异彩。

  • CNN模型

    CNN的核心是卷积层,卷积层中的卷积核在提取特征时共享参数。

  • ViT模型

    受Transformer在NLP中成功的启发,许多作品都试图将Transformer应用于ViT的CV领域,将图片以patch的方式输入。

【预训练大模型】

         与更好的骨干架构并行,深度学习还受益于自我监督,它可以利用更大的(未标记的)训练数据集。在这里,我们总结了与AIGC最相关的预训练技术,并根据训练数据类型(如语言、视觉和关节预训练)对其进行分类。

  • 语言预训练模型

    主要分三类:BERT、GPT家族、BART。

    1)BERT是常见的预训练语言表征模型,全称为Bidirectional Encoder Representation from Transformers。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。

    2)与BERT的双向掩码语言模型不同,GPT是自回归语言模型。BERT由Transformer的Encoder部分堆叠组成,而GPT使用的是Transformer的Decoder部分,更适合于文本生成任务。

    3)Facebook提出的BART模型看做是BERT与GPT结合的降噪自编码器,它是由双向编码器(Bidirectional Encoder)和自回归解码器(Autoregressive Decoder)构成的Sequence-to-Sequence预训练模型,适用于非常广泛的下游任务。

  • 视觉预训练模型

    按照时间顺序将VLP模型分为三个阶段:特定任务的方法,视觉语言预训练(VLP)方法,以及由大规模弱标记数据加持的更大的模型三大类。三类主流任务:Image Captioning、VQA、Image Text Matching。受到BERT在NLP中成功的启发,将掩蔽建模应用于视觉,其成功依赖于预先训练的VAE获得视觉标记。掩蔽自动编码器(Masked autoencoder, MAE)[141](见图8)将其简化为端到端的去噪框架。

  • 联合预训练模型

     目前多模态学习在学习数据表示方面取得了前所未有的进展,其中最重要的是跨模态匹配。对比预训练被广泛用于在同一表示空间中匹配图像嵌入和文本编码。CLIP是这一方向上的开创性工作,被用于许多文本-图像模型,如DALL-E2Upainting、 DiffusionCLIP。ALIGN扩展了带有噪声文本监督的CLIP,因此文本图像数据集不需要清理,并且可以缩放到更大的尺寸(从400M到1.8B)。Florence进一步扩展了跨模态共享表示。

 生成模型

生成模型可以分为两大类。基于似然的概率模型,如自回归模型和流程模型。在变分自编码器(VAEs)中,似然不是完全可处理的,但可处理的下界可以优化,因此VAE也被认为位于基于似然的组中,该组组指定了一种归一化概率。相比之下,基于能量的模型的特征是未归一化概率,即能量函数。由于没有对归一化常数可处理性的约束,基于能量的模型在参数化方面更加灵活,但难以训练。值得注意的是,GAN和扩散模型diffusion model与基于能量的模型高度相关,尽管它们是由不同的动机发展而来的。

    GAN和扩散模型得到了广泛的应用。作为生成高质量图像的开创性工作,GAN被广泛认为是具有挑战性的图像合成任务的事实上的标准模型。

     扩散模型的使用在过去几年中出现了爆炸性增长。扩散模型也被称为去噪扩散概率模型(去噪扩散概率模型ddpm)或基于分数的生成模型,生成的新数据与它们所训练的数据相似。

引用借鉴:

[1] https://arxiv.org/abs/2303.11717

[2] 万字长文:AIGC技术与应用全解析 - 知乎

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值