人类历史上第一个文生图AI算法——alignDRAW

简介

Elman Mansimov及其同僚在2015年11月9日所发表的论文《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION:ICLR》提出一个名为alignDRAW的模型[1],代表了在人工智能领域从文本描述到图像生成(Text-to-Image)技术的首次突破,标志性地开创了该领域的研究先河。通过利用迭代绘制机制以及对描述性文本中关键词汇的关注,该模型在Microsoft COCO数据集上不仅显著超越了既存基线模型在图像生成与检索的能力,同时也证实了其在处理自然语言描述生成对应高质量图像方面的性能。

该模型的影响不仅仅局限在技术领域内,alignDRAW模型在人工智能艺术历史中具有里程碑式的创新意义 ,其不仅为随后发展的文本至图像生成技术,如知名的DALL-EStable DiffusionMidjourney等[2],提供了坚实的技术框架和丰富的灵感源泉,而且推动了跨模态人工智能应用于创意艺术领域的深入探索。

历史背景

在alignDRAW模型的开发背景中,当时的技术氛围正处于从Image-to-Text(图像到文本)向Text-to-Image(文本到图像)转变的关键时期。 [3] 2014年末,《纽约时报》的报道显著提升了公众对新兴图像字幕系统的关注,这一点标志着深度学习在主流媒体中的首次亮相,超越了其在学术界的讨论。 [4] 此外,序列到序列(Seq2Seq)模型,尤其是在神经网络机器翻译领域,开始展现出其独特的潜能。此时期的研究重点逐渐从图像和文本分类模型转向更为复杂的任务,如机器翻译和图像字幕,预示着深度学习领域的重大进展。 [5]

Ilya Sutskever、Oriol Vinyals 和 Quoc Le 在机器翻译方面的关键论文 [6] ,以及Mansimov未来的导师Kyunghyun Cho与他的合作者Dzmitry Bahdanau和Yoshua Bengio的工作,无缝对齐并翻译了图像和文本,推动了机器翻译技术的图像字幕应用。 [5]这些研究不仅展示了深度学习在理解和生成语言方面的能力,也为文本到图像的生成探索奠定了基础。

正是在这一时代和技术背景下,Mansimov受到了视频理解方面合作的启发,特别是与Nitish Srivastava在预测视频帧的未来发展中使用序列到序列递归神经网络的工作,这与后来的GPT-4在处理文本预测和理解任务中的方法有着惊人的相似性。 [7] 此外,图像字幕技术的进步促使Mansimov思考如何逆转这一过程,从文本生成图像而不是从图像生成文本。他的核心假设是,图像生成应该是一个循环和迭代的过程,而不是一次性的创作,模型应当在图像形成过程中注意到相关的文本部分。 [3] DRAW模型的提出,即逐步绘制图像,进一步验证了他的这一假设,最终促使他开发了alignDRAW,这是一种能够将文本描述转换为图像的创新模型。

技术概述

alignDRAW模型基于迭代绘制的概念,能够在画布上逐步绘制图像块(patch),同时注意到描述中的相关词汇。模型的训练基于Microsoft COCO数据集,并与其他几种基线生成模型在图像生成和检索任务上进行了比较。 alignDRAW在生成高质量样本方面优于其他方法,并能够生成与数据集中先前未见描述相对应的新颖场景组合的图像。 

技术原理上,alignDRAW模型扩展了深度递归注意力写手(Deep Recurrent Attention Writer, DRAW)模型,通过在每个绘制步骤中关注描述中的相关词汇。模型定义了一个条件生成过程,其中文本描述被表示为一系列连续的单词,而图像则被表示为随时间绘制在画布上的一系列图像块。 模型的关键贡献包括引入了一个条件alignDRAW模型,使用软注意力机制从标题生成图像,并在后处理步骤中通过确定性的拉普拉斯金字塔对抗网络对生成的图像进行细化 。

模型的另一特点是能够根据完全新的场景描述(如“一个停车标志在蓝天中飞翔”)泛化到未见过的标题,显示了模型对未见过的场景描述的理解和生成能力。alignDRAW模型利用序列到序列的框架,将文本描述作为输入,使用这些描述来生成相关图像,这一过程结合了语言建模和图像生成的两个挑战组件,被认为比标题生成更为困难。

技术细节详解可参见此文:Generating Images from Captions with Attention-CSDN博客

艺术评价及地位

佳士得国际摄影部主管Darius Himes对alignDRAW评价道:这是人工智能领域的Nicéphore Niépce。 [9] 数字文化理论家Lev Manovich在他发表在Fellowship的文章中也对alignDRAW作出了如下评价:很难夸大2010年代生成性人工智能研究产生的首批视觉成果的历史意义。alignDRAW生成的图像可以与Nicéphore Niépce在1826-1827年拍摄的首批固定照片相媲美。 [8]

作为人类历史上首个文本至图像(Text-to-Image)人工智能生成模型 [2] ,是DALL-EStable DiffusionMidjourney等文字生成图片AI模型的先驱 [3] ,其在科技艺术及人工智能艺术发展史中具有里程碑式的地位。

展览及馆藏记录

时间地点/机构图片
2023-11-10Paris Photo 2023
2024-02Worcester Art Museum

资料来源

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值