论文阅读_善用Midjourney

最新推荐文章于 2025-05-02 15:56:00 发布

xieyan0811

最新推荐文章于 2025-05-02 15:56:00 发布

阅读量1.4k

点赞数

分类专栏：论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/xieyan0811/article/details/129343597

版权

论文阅读专栏收录该内容

96 篇文章

订阅专栏

该论文探讨了如何使用Midjourney工具进行图像生成提示工程，尤其是针对童话故事的插图。通过四个阶段的过程——初始提示、成分调整、风格细化和加入变化，作者优化了生成过程，并讨论了模型在计数、假定场景生成和奇异情况描述上的局限性。此外，文章还介绍了Midjourney的使用方法和注册流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文信息

name_en: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales
name_ch: 用Midjourney生成格林童话插图
paper_addr: http://arxiv.org/abs/2302.08961
date_publish: 2023-02-17
author: Martin Ruskov,米兰大学

读后感

针对生成图的提示工程，利用工具 Midjourney v4，进行了一系列实验。得出一个生成提示的4阶段过程：初始提示，成分调整，风格细化，加入变化。另外还讨论了生成图像效果不佳的三个原因：计数困难，难以生成假定的场景，无法描述过于奇异的情况。作者认为这不仅用于生成图片，且对未来的生成模型具有普适性。

介绍

之前的提示工程研究包含：主语，动词，环境，风格；之后又有人提出：主题词，风格修饰语，图像提示，质量助推器，重复，和魔术术语的方法。
Midjourney是实践中最受欢迎的工具之一，尽管它是商业的，对建筑也知之甚少。目前的Midjourney V4更为复杂，它支持更多知识，能生成更多细节，可接受更复杂的提示，能处理多实体的场景。

方法

当前的图像生成器不仅能通过文本作为输入并产生图像，还支持输入修饰语对图像进行修正。目前已知VQGAN + CLIP和Stable Diffusion具有截然不同的架构，对Dall - E和Midjourney的架构知之甚少。因此，文中未讨论Midjourney专用的魔术术语和质量设置参数，而主要关注一些通用的方法，如主题风格等。

主题

第一步，从原始文本中推导出主题提示，并对其进行简化和调整（如用特定的名词替换代词），以改善结果。

风格

这里的风格指代了前人文中的媒体和风格，由于生成童话插画，希望生成器不要引入过多细节（Midjourney默认的艺术画风格细节比较丰富），所以尝试了书籍插图或极简主义插图等风格修饰语来限制风格。

图像提示

实验并没有上传参考图片，利用了Midjourney提供的图像微调功能。在不使用基于图像的微调的情况下，图像之间的一致性是一个挑战，比如对同一个童话生成不同场景时，同一人物可能生成的完全不同，本文不讨论此问题。

结果

生成图所的四个阶段

初始提示：概括原文，尽可能地使用一个简单的句子
分成调整：逐步调节提示，优先考虑小的变化，以生成好的反馈迭代。特别注意对歧义词可能曲解。分以下三个层次：
- 调整词语，可选择性地简化或用同义词替换，可能更好地代表语境的词语。可能包括将短语动词减少到代表动作的动词，牺牲叙事的丰富性和忠实性来提升表达准确性。
- 为实体(主体与客体)添加或删除形容词或为动词添加副词。
- 添加对象以更好地表示上下文和/或强制删除不必要的对象。
细化风格：每当发现生成器有多余内容时，可以通过在基本的、简单的、最小的、平坦的颜色上强制使用带有修饰符的风格来抑制它（生成童话无需太多细节）。
调整已有的图像：一旦图片整体内容稳定下来，只要生成器支持微调（MidJounery是扩展模型，支持微调），就可以在图像的基础上调整。例如：调整实体的数量。

图-1展示了原始文本，调整后的提示文本，以及最终生成的比较满意的图片。