卷上天!谷歌夺回AI画语权,机器的想象力达到全新高度!

来源:量子位

在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。

这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。

c9b47e41d78231e14896d949dcfc3c05.png

直接上图对比,左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”,右边则是DALL·E 2选手的同题创作。

063e79e9986eb5d17cf97da7a086c2ba.png

你觉得哪一位选手的作品更符合题意?

而让网友们直呼“DALL·E 2这就过时了?”的,还不只是这种正面PK的刺激。

看到这么一张照片,如果不说是AI生成的,是不是要先感叹一句两脚兽的摆拍技术越来越高超了?

7c63293abc32fe2fedcdeb9054d19187.png

输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,Imagen创作出的画面则是酱婶的:

7e73f4babfc8fe6ba73a2a8b37ebddc9.png

还可以试试把文字写得长一点。

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》…(啊先让我喘口气)

Imagen也轻松拿下,要素齐全:

138d5ce01c6cec72be58a21136b20509.png

看到这,机器学习圈的网友反应是这样的:

不是吧,这才一个月就又更新换代了?

1b3f86defc6e57c95237913c905dcc04.png

求求别再震惊我了。

ef2ce8dc31c31cd33b5e896669f4a360.png

这事儿热度一起,很快就破了圈。

吃瓜群众们立刻就想到一块去了。

以后可能没图库网站什么事儿了。

0003e862218a29ec2c2012d61c69ba21.png

那么这个来自谷歌的新AI,又掌握了什么独家秘技?

具体详情,我们一起接着往下看。

增强「理解」比优化「生成」更重要

文本到图像生成我们之前介绍过不少,基本都是一个套路:

CLIP负责从文本特征映射到图像特征,然后指导一个GAN或扩散模型生成图像。

但谷歌Imagen这次有个颠覆性的改变——

使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自家的T5-XXL,训练好后冻结住文本编码器。

图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。

6d1cdc2e75521a7cd3aad1e8da3d462e.png

这样做最大的好处,是纯文本训练数据要比高质量图文对数据容易获取的多。

T5-XXL的C4训练集包含800GB的纯文本语料,在文本理解能力上会比用有限图文对训练的CLIP要强。

这一点也有着实验数据做支撑,人类评估上,T5-XXL在保真度和语义对齐方面表现都比CLIP要好。

9968130189452dccc5e36742e7a9302c.png

在实验中谷歌还发现,扩大语言模型的规模对最后效果影响更大,超过扩大图像生成模型的影响。

86f211abb62c42dc61cd5f4b89de7b02.png

看到这有网友指出,谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果用上PaLM,又会是啥样?

bd2ba596bf1c64d68453ad164567d4c3.png

除了语言模型部分的发现,谷歌通过Imagen的研究对扩算模型作出不少优化。

首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会损害图像保真度。

解决的办法是每一步采样时使用动态阈值,能够防止过饱和。

44a36f5deeec2d314f66329fe4546bae.png

第二,使用高引导权重的同时在低分辨率图像上增加噪声,可以改善扩散模型多样性不足的问题。

第三,对扩散模型的经典结构U-Net做了改进,新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。

对语言理解和图像生成都做出改进之后,Imagen模型作为一个整体在评估中也取得了很好的成绩。

比如在COCO基准测试上达到新SOTA,却根本没用COCO数据集训练

16f9adbc51331b5f193d8750cc372669.png

在COCO测试的人类评估部分也发现了Imagen的一个缺点,不擅长生成人类图像。

具体表现是,无人类图像在写实度上获得更高的人类偏好度。

6024304a9b2c0bbfd477ae7ad753c3f8.png

同时,谷歌推出了比COCO更有挑战性的测试基准DrawBench,包含各种刁钻的提示词。

实验发现,DALL·E 2难以准确理解同时出现两个颜色要求的情况,而Imagen就没问题。

d5543ac9b9d08f33af67d077172be226.png

反常识情况,比如“马骑着宇航员”两者表现都不佳,只能画出“宇航员骑着马”。

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确,只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。

ae07b911b0ef82587a9b70fecc5dcb0c.png

大概“马骑着宇航员”有点反常识(狗头)

对于要求图像中出现文字的,也是Imagen做得更好。

除了最基本的把文字写对以外,还可以正确给文字加上烟花效果。

36ae000e0467612fb8bb1f77903ff3ab.png

AI画画越来越出圈

说起来,AI作画这件事,最早便源起于谷歌。

2015年,谷歌推出DeepDream,开创了AI根据文本生成图像的先河。

97f32771cf859cf8d767a0030a931de4.png
DeepDream作品

但要说相关技术真正开“卷”、出圈,标志性事件还得数2021年OpenAI的DALL·E横空出世。

当时,吴恩达、Keras之父等一众大佬都纷纷转发、点赞,DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。

随后,语言理解模型和图像生成模型多年来的技术进展,便在“AI作画”这件事上集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用,频频在网络上掀起热潮。

82e9f9be6f6c7ec0b69cf9f513e68a16.png

从此一发不可收拾,技术更新迭代越来越快。

DALL·E 2刚发布的时候就有网友发起一个投票,问多长时间会出现新的SOTA。

当时大多数人选了几个月1年以上

5da4d8d69a11e2ca4315f261928d259a.png

但现在,Imagen的出现只用了6周

随着AI画画效果越来越强大,受众范围也不断扩大,突破技术圈进入大众视野。

前一阵,就有AI画画应用登上苹果App Store图形与设计排行榜榜首

becdf46b8efa63b94407cac44398ea95.png

现在最新的潮流,是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测,刷爆社交网络。

aaf19fd83c16739866f0602aa4ed4e89.png

如此出圈,也给OpenAI和谷歌这样的大公司带来很大压力。

出于AI伦理、公平性等方面考虑,DALL·E 2和Imagen都没有直接开源或开放API。

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。

8204deacdb72815f73adec7d245be3d4.png

OpenAI选择了内测模式,而谷歌还在做进一步研究和规范,等到确保AI不被滥用之后再择机公开。

现在想体验Imagen的话,有一个在线Demo演示。

可以从给定的几个提示词中自由组合出不同场景。

ceaf25a5e920a58ccd60476188c130c7.gif

快来试试吧~

Demo地址:
https://gweb-research-imagen.appspot.com

论文地址:
https://gweb-research-imagen.appspot.com/paper.pdf

参考链接:
https://twitter.com/ak92501/status/1528861980702146560

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

3b22409ff81c25d87d3784020e908a14.png

👆 长按识别,邀请您进群!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值