论文阅读_善用Midjourney

该论文探讨了如何使用Midjourney工具进行图像生成提示工程,尤其是针对童话故事的插图。通过四个阶段的过程——初始提示、成分调整、风格细化和加入变化,作者优化了生成过程,并讨论了模型在计数、假定场景生成和奇异情况描述上的局限性。此外,文章还介绍了Midjourney的使用方法和注册流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文信息

name_en: Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales
name_ch: 用Midjourney生成格林童话插图
paper_addr: http://arxiv.org/abs/2302.08961
date_publish: 2023-02-17
author: Martin Ruskov,米兰大学

读后感

针对生成图的提示工程,利用工具 Midjourney v4,进行了一系列实验。得出一个生成提示的4阶段过程:初始提示,成分调整,风格细化,加入变化。另外还讨论了生成图像效果不佳的三个原因: 计数困难,难以生成假定的场景,无法描述过于奇异的情况。作者认为这不仅用于生成图片,且对未来的生成模型具有普适性。

介绍

之前的提示工程研究包含:主语,动词,环境,风格;之后又有人提出:主题词,风格修饰语,图像提示,质量助推器,重复,和魔术术语的方法。
Midjourney是实践中最受欢迎的工具之一,尽管它是商业的,对建筑也知之甚少。目前的Midjourney V4更为复杂,它支持更多知识,能生成更多细节,可接受更复杂的提示,能处理多实体的场景。

方法

当前的图像生成器不仅能通过文本作为输入并产生图像,还支持输入修饰语对图像进行修正。目前已知VQGAN + CLIP和Stable Diffusion具有截然不同的架构,对Dall - E和Midjourney的架构知之甚少。因此,文中未讨论Midjourney专用的魔术术语和质量设置参数,而主要关注一些通用的方法,如主题风格等。

主题

第一步,从原始文本中推导出主题提示,并对其进行简化和调整(如用特定的名词替换代词),以改善结果。

风格

这里的风格指代了前人文中的媒体和风格,由于生成童话插画,希望生成器不要引入过多细节(Midjourney默认的艺术画风格细节比较丰富),所以尝试了书籍插图或极简主义插图等风格修饰语来限制风格。

图像提示

实验并没有上传参考图片,利用了Midjourney提供的图像微调功能。在不使用基于图像的微调的情况下,图像之间的一致性是一个挑战,比如对同一个童话生成不同场景时,同一人物可能生成的完全不同,本文不讨论此问题。

结果

生成图所的四个阶段

  • 初始提示:概括原文,尽可能地使用一个简单的句子
  • 分成调整:逐步调节提示,优先考虑小的变化,以生成好的反馈迭代。特别注意对歧义词可能曲解。分以下三个层次:
    • 调整词语,可选择性地简化或用同义词替换,可能更好地代表语境的词语。可能包括将短语动词减少到代表动作的动词,牺牲叙事的丰富性和忠实性来提升表达准确性。
    • 为实体(主体与客体)添加或删除形容词或为动词添加副词。
    • 添加对象以更好地表示上下文和/或强制删除不必要的对象。
  • 细化风格:每当发现生成器有多余内容时,可以通过在基本的、简单的、最小的、平坦的颜色上强制使用带有修饰符的风格来抑制它(生成童话无需太多细节)。
  • 调整已有的图像:一旦图片整体内容稳定下来,只要生成器支持微调(MidJounery是扩展模型,支持微调),就可以在图像的基础上调整。例如:调整实体的数量。

图-1展示了原始文本,调整后的提示文本,以及最终生成的比较满意的图片。

生成器当前的问题

  • 计数困难:比如描述画三只乌鸦结果生成五只,手指数量不对等,这可以通过多试几次或微调来修正。
  • 难以生成假定的场景:模型不具备先验知识,如图-2中第1条。
  • 无法描述过于奇异的情况:对于非传统情境,自非现实文本(也称为不可能场景),生成效果不好,如图-2中第2,3条。

Midjourney用法

网址

https://www.midjourney.com/

注册

  • 科学上网
  • 主界面点Sign in,选无帐号,创建一个,然后通过邮件激活
  • 必须手机收短信才能完成注册,可以支持国内手机

打开Midjounery

主界面点Join the Beta,此时就进入了绘画的聊天室,可以看到别人的画作

### 关于Midjourney提示词的使用指南 #### 一、理解基本概念 为了有效利用Midjourney创建理想的图像,掌握提示词编写至关重要。提示词是指向算法传达创作者意图的关键指令集,直接影响最终作品的质量和风格。 #### 二、构建有效的提示词策略 1. **明确目标** 明确希望创造的具体场景或对象有助于聚焦提示词的方向。例如,“一个穿着古风服饰站在樱花树下的女子”,这样的描述能够帮助定位创作的主题[^1]。 2. **细化特征** 描述越具体越好,包括但不限于人物表情、姿态、服装细节;环境中的光线条件、天气状况等。“柔和的日光洒在一个微笑的女孩脸上,她身着淡粉色汉服,在飘满花瓣的小径上漫步。”这种细致入微的描绘能让模型捕捉到更多层次的画面信息[^2]。 3. **运用艺术术语** 借助专业的美术词汇来增强表达力,比如色彩理论(冷色调/暖色调)、构图原则(三分法/对角线布局),以及特定的艺术流派名称(印象派/超现实主义)。这不仅能使生成的作品更具美感,还能引导AI模仿某种特定的艺术风格。 4. **探索多样化的组合方式** 尝试不同的形容词搭配、动词选择甚至是抽象的概念融入,往往能带来意想不到的效果。“未来城市里充满科技感却带着一丝复古韵味的生活空间”。此类跨界的创意融合正是AI绘图的魅力所在。 5. **善用工具辅助** midlibrary作为一个专门针对Midjourney用户的在线资源库,提供了大量经过验证的有效提示案例供参考借鉴。通过研究这些成功范例,可以快速积累经验并提升个人技能水平。 ```python # Python代码仅作为示例展示如何自动化生成部分提示词片段 import random adjectives = ["梦幻般的", "神秘的", "温暖的"] nouns = ["森林", "城堡", "海洋"] verbs = ["漂浮", "闪耀", "流动"] def generate_prompt(): adj = random.choice(adjectives) noun = random.choice(nouns) verb = random.choice(verbs) prompt = f"{adj} {noun}, where everything is gently {verb}" return prompt print(generate_prompt()) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值