Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

来源:新智元

现在,已是2022年底。

深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。

c73e59ce41a1054e416d39b36bac289d.png

十年来,我们是如何走到今天这一步的?

在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。

一切,都要从十年前的那个夏天说起。

开端(2012-2015)

深度神经网络面世之后,人们意识到:它将彻底改变图像分类。

同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么?

这就是「人工智能之夏」诞生的伊始。

2012 年 12 月

一切发端于此。

这一年,论文《深度卷积神经网络的ImageNet分类》横空出世。

f81595aae03383ba5fd6e92fa38e4b73.png

论文作者之一,就是「AI三巨头」之一的Hinton。

5ffd87264aa57cee85903ad3ac140978.png

它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集(ImageNet)结合在一起。

0ad8a2c7ef1c557ca773174a9358c234.png

2014 年 12 月

Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。

edeca8c19008c96361359ed7048b0070.png

GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。

69bc47a924d49a6e7b4d2dd87bed2a76.png

它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。

最终,只有「生成器」被保留在系统之外,并用于图像合成。

11a548d613989e1f2dd9c9a54cbe31c4.png

Hello World!来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除

2015 年 11 月

具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。

3c3525fd4e860de6126f675966f0d6ec.png

在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。

132d073b408bbc50a3510af12a129220.png

这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?

GAN的五年(2015-2020)

这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。

期间,GAN架构的论文开始爆炸式井喷。

a94f71d163cc0b11a5798903a3b6a8f3.gif

项目地址:https://github.com/nightrome/really-awesome-gan

与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。

第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。

4057eb589bea56901f696f7001d46652.png

与此同时,transformer架构彻底改变了NLP。

在不久的将来,这件事会对图像合成产生重大影响。

2017 年 6 月

《Attention Is All You Need》论文发布。

06cf9a2fc1716863877c174834a52eb1.png

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。

943783fe5ccd099ba7651cfa18ce02ea.png

自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。

8de8cee45b367a2eecc8ab3007306b29.png

2018 年 7 月

4af6d9422a7344005ff0cd3a4a636409.png

《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。

d7180b4191672e13c1de2458f59ee8da.png

这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。

2018-20年

NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。

002ed5dc46385b635a8b6260210a861d.png

在《使用有限数据训练生成对抗网络》这篇论文中,介绍了最新的StyleGAN2-ada。

00934ea6162fe851d561144dd73c1f55.png

GAN 生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。

02aa83aa9d0c4129ccaeb7b6088a7290.jpeg

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点

2020 年 5 月

论文《语言模型是小样本学习者》发表。

dac7449d0c5bddc540fdbd8a30001e90.png

OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。

39ff95220f1c586c86066fa50bdd4407.png

2020 年 12 月

论文《用于高分辨率图像合成的Taming transformers》发表。

58b4d6f27c8dba412ac6a4a7ab7f6f5d.png

ViT表明,Transformer架构可用于图像。

5b3416f4899081b5295cd5e41eacca1e.png

本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。

e0d55292f740334e621a28548dd0f501.jpeg

2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。

因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。

Transformer的时代(2020-2022)

Transformer架构的出现,彻底改写了图像合成的历史。

从此,图像合成领域开始抛下GAN。

「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。

《从自然语言监督中学习可迁移视觉模型》这篇论文中,提出了CLIP 架构。

a9a92b35b68f8e2b499000c9a4ef5316.png

可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。

685e923f02471b8d59509d12cbc24a42.png

论文中的CLIP架构

2021 年 1 月

0b36015b8887dab06fd18d724c2a597d.png

论文《零样本文本到图像生成》发表(另请参阅OpenAI 的博客文章),其中介绍了即将轰动全世界的DALL-E的第一个版本。

这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。

该模型只是「continues」the「sentence」。

数据(250M 图像)包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。

CLIP为图像合成的「多模态」方法奠定了基础。

2021 年 1 月

论文《从自然语言监督学习可迁移视觉模型》发表。

95d916f5692436c76f27dc9bc000512c.png

论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。

a54e7df6c04aff0a1f2dbe2e61a0403d.png

CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。

模型在论文附录A.1中列出的大量数据集上进行训练。

2021 年 6 月

论文《扩散模型的发布在图像合成方面击败了GAN》发表。

237a1dcc98163e93f381dc66f4764c7e.png

扩散模型引入了一种不同于GAN方法的图像合成方法。

2661eb7063fea2de8b56e72dfca266dc.png

研究者通过从人工添加的噪声中重建图像来学习。

它们与变分自动编码器 (VAE) 相关。

2021 年 7 月

DALL-E mini发布。

61d1e499142909dd59731666f231b07f.png

它是DALL-E的复制品(体积更小,对架构和数据的调整很少)。

数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。

因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。

2021-2022

Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验)。

就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。

2022 年 4 月

论文《具有 CLIP 潜能的分层文本条件图像生成》发表。

dc6e11f1814549aab82a3653182310ba.png

该论文介绍了DALL-E 2。

9cc7e70abeff17b88e32fbc1208513c3.png

它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。

d41fedab7b8cb21c5e7c6c5ff357eb08.png

同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。

根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。

558a826176cd70cc88bee5b3880fb5cb.png

「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案

2022 年 5-6 月

5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。

0d1b9601ed80a9fe148ab6435ef54c34.png

6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。

10753677c2a4261dfb321bd1288578bc.png

这两篇论文中,介绍了Imagegen和Parti。

238c9017853084850d7be109a78c5443.png

以及谷歌对DALL-E 2的回答。

0471787dc67cde27ab962a3db40fe40e.png

「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop(2022年至今)

虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。

用户仍继续尝试DALL-E mini等较小的模型。

紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。

可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。

50de8ee93d2f9fbf42090a048f3f894a.jpeg

「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化

2022 年 8 月

Stability.ai发布Stable Diffusion模型。

a2f4163987753be2db4c37e6b4183ecd.png

‍在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。

879fa133e33a92e5750599189792e170.png

这个模型可以实现与DALL-E 2同等的照片级真实感。

除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。

2022 年 8 月

谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。

7ae871c37773584c2797bf29ccb71ef4.png

DreamBooth提供了对扩散模型越来越细粒度的控制。

41cb57d54e8bc163e71630888f2d0c11.png

然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。

2022 年 10 月

e8bf9772fa5d69e5d1c5e3f44d4f6a0f.png

最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。

参考资料:

https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis

荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

2f91d23598155f98236c325d22c44f47.jpeg

👆 长按识别,邀请您进群!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值