AI绘画关键词（咒语）分析与热点研究

集eee

已于 2024-01-28 21:41:05 修改

阅读量1.8k

点赞数 28

文章标签： AI作画 midjourney chatgpt 人工智能 prompt text2img stable diffusion

于 2024-01-28 21:33:49 首次发布

本文链接：https://blog.csdn.net/weixin_49570978/article/details/135900835

版权

语义文本图像生成技术关键词分析与热点研究

一、研究背景与研究意义

随着深度学习的发展，语义文本到图像的生成技术已经取得长足进步，AI绘画也因此快速崛起。只需输入关键词，AI系统就能自动生成符合语义描述的图像，这一技术的出现,使绘画的创作方式发生革命性变化。目前主流的AI绘画模型有Midjourney、Stable diffusion和文心一格等，其使用方式多为输入一段含有图片描述的“prompt（指令）”，由算法生成图像后用户进行反馈，改进指令后再次迭代。但由于指令输入规则不明、关键词定义不准确等，这种方式生成的图片多与用户预期不符，在给定复杂语义描述的情况下，生成高质量图像仍存在很大挑战。

一方面，AI绘画可能因模型的训练数据不同，而生成不同结果；另一方面，关键词的合理选择也对生成效果有更加重要的影响。因此,开展语义文本图像生成技术的关键词分析与热点研究，对更好地掌握AI绘画的方法有很大意义。本研究将针对当前网络热门AI绘画作品的语义描述进行分析，分析AI绘画常用指令内容与关键词词频，以寻找语义描述与生成内容之间的内在联系，分析AI绘画热点，了解AI绘画发展趋势。

二、国内外研究现状与发展趋势

2022年是AIGC元年，AIGC（Artificial Intelligence Generated Content），即生成式人工智能，标志着人工智能技术由1.0时代进入了2.0时代。对于此项技术的各种应用成为时下最热门的话题，AI绘画就是人工智能技术在绘画领域的应用，目前的AI绘画主要包括基于深度学习和深度神经网络的AI绘画和基于自然语言处理和知识图谱的AI绘画[1]，其发展过程经历了由计算机语言指令到自然语言指令的阶段。

1962年，麻省理工学院首次提出“计算机图形学”这个术语，当时的计算机图形技术可以通过使用基本数学算法来完成对于简单图形的创建。到20世纪70年代，美国Applincon公司开发出了第一个完整的CAD系统，设计师可以在计算机上创建、操作三维形状以及更复杂的图像。1973年，艺术家哈罗德·科恩创造了世界上首个绘画算法——AARON，利用一些简单的计算机指令进行绘画创作。1984年，Adorni等人[2]构思了一个用于场景生成的系统，其输入指令是一系列简单的形容词和短语。1992年，Yamada等人利用一个实验性计算机程序SPRINT，通过自然语言文本生成了所描述的空间模型，称为“从自然语言文本重建空间图像的方法”[3]。2001年Coyne等人[4]提出了自动文本到场景转换系统，该系统可将文本转换为3D场景。2007年用于增强通信的文本到图片合成系统[5]首先识别语句中可描绘的文本单元，然后搜索与文本最接近的图像部分，最后根据文本优化图片布局，由此图像生成技术逐渐完成了从计算机语言到文本描述语言的转化。

通过描述或文本生成相应图像（Text to Image, T2I）的技术，为自然语言到机器视觉的转化提供了通道。语言文本作为人机交互中最自然的输入接口之一，具有灵活、丰富的特点，且语句也可能因主体理解不同而具有不同的含义。未来的图像生成技术将会使用更广泛，用户群体也逐渐趋向非专业化，因此