人类历史上第一个文生图AI算法—

本文链接：https://blog.csdn.net/weixin_47964286/article/details/138728116

简介

Elman Mansimov及其同僚在2015年11月9日所发表的论文《GENERATING IMAGES FROM CAPTIONS WITH ATTENTION：ICLR》提出一个名为alignDRAW的模型[1]，代表了在人工智能领域从文本描述到图像生成（Text-to-Image）技术的首次突破，标志性地开创了该领域的研究先河。通过利用迭代绘制机制以及对描述性文本中关键词汇的关注，该模型在Microsoft COCO数据集上不仅显著超越了既存基线模型在图像生成与检索的能力，同时也证实了其在处理自然语言描述生成对应高质量图像方面的性能。

该模型的影响不仅仅局限在技术领域内，alignDRAW模型在人工智能艺术历史中具有里程碑式的创新意义，其不仅为随后发展的文本至图像生成技术，如知名的DALL-E及Stable Diffusion、Midjourney等[2]，提供了坚实的技术框架和丰富的灵感源泉，而且推动了跨模态人工智能应用于创意艺术领域的深入探索。

历史背景

在alignDRAW模型的开发背景中，当时的技术氛围正处于从Image-to-Text（图像到文本）向Text-to-Image（文本到图像）转变的关键时期。 [3] 2014年末，《纽约时报》的报道显著提升了公众对新兴图像字幕系统的关注，这一点标志着深度学习在主流媒体中的首次亮相，超越了其在学术界的讨论。 [4] 此外，序列到序列（Seq2Seq）模型，尤其是在神经网络机器翻译领域，开始展现出其独特的潜能。此时期的研究重点逐渐从图像和文本分类模型转向更为复杂的任务，如机器翻译和图像字幕，预示着深度学习领域的重大进展。 [5]

Ilya Sutskever、Oriol Vinyals 和 Quoc Le 在机器翻译方面的关键论文 [6] ，以及Mansimov未来的导师Kyunghyun Cho与他的合作者Dzmitry Bahdanau和Yoshua Bengio的工作，无缝对齐并翻译了图像和文本，推动了机器翻译技术的图像字幕应用。 [5]这些研究不仅展示了深度学习在理解和生成语言方面的能力，也为文本到图像的生成探索奠定了基础。

正是在这一时代和技术背景下，Mansimov受到了视频理解方面合作的启发，特别是与Nitish Srivastava在预测视频帧的未来发展中使用序列到序列递归神经网络的工作，这与后来的GPT-4在处理文本预测和理解任务中的方法有着惊人的相似性。 [7] 此外，图像字幕技术的进步促使Mansimov思考如何逆转这一过程