AI生图的那些“坑”，豆包“创意超能1.0”这次能填平吗？（上）

本文链接：https://blog.csdn.net/weixin_47134008/article/details/148305944

说实话人对曾经否定过的东西是存在偏见的

AI图像生成刚出来那会儿，确实让人眼前一亮。输入几个关键词，就能得到各种脑洞大开的图片，无论是朋友圈分享还是单纯满足好奇心，都挺有意思的。像Midjourney、Stable Diffusion这些工具，也迅速在设计圈和科技爱好者中流行起来。

但新鲜感过后，当我想把这些工具正经用在工作或学习中，比如为PPT配图、设计公众号封面，甚至构思产品雏形时，往往效果不尽如人意。

豆包图像生成超能创意 1.0已经更新了快一个月了，目前还在灰度测试当中。但是，我心里是存疑的。毕竟，AI领域的新概念和新产品层出不穷，真正能解决实际问题的并不多。但我还是不情愿的决定试一下，这一试不要紧，发现

哎好像。。。好像能行！那就针对以前的一些痛点问题，看看到底有几斤几两。

痛点1：文字易错位或变形

以往在AI生成图片中处理文字，确实是一大难题。一句简单的“开业大吉”，都可能变成“开业大犬”，并且生成的文字极有可能可能会错位、变形。这次的效果如何话不多说直接上图：

帮我生成4张图片，摄影，俯瞰在草地上有用白色乐高积木拼起来的“端午·安康”几个大字，阳光明媚，有乐高小人正在包粽子、赛龙舟，周围还摆放着一些绿色的艾草和五彩的香囊，横版16:9。

咱就是说“端午·安康”这四个字没毛病吧，中文的表现也算是相当可以了。

下面再试一下英文，一般来说英文的表现会比中文更好一些，emmmm怎么说呢，可能中文的复杂程度对于久不提笔的我来说都有点怕的

生成4张不同动物单词记忆配图，画面中要出现单词和相对应的画面，画面的风格和格式统一，图片的风格是 3d 卡通风格

怎么样，整体上文字的表现我是觉得ok的，文字不仅准确无误地呈现出来，没有错别字和变形，而且在字体选择、颜色搭配和排版布局上，也提供了相对合理的默认效果

痛点2：风格的一致性较差

所谓风格的一致性，一方面指的是图片内容的环境、氛围已经表现形式是一致的，另一方面指的是角色的统一性，包括形态和装饰等。

可能你想生成一个系列图片，用于故事创作、幼儿教育、知识科普等场景，保持风格上的一致性就至关重要。但实际操作中，即便使用相同的提示词和模型，得到的图片内容也可能大相径庭，就像开盲盒，只能得到单次的惊喜，而不是持续性的快乐。

所以：

生成4张毛茸茸的北极动物，干净的画面，干净的背景，景深，毛毡画，羊毛毡，鲜艳的色彩，童趣，异想天开的，蓬松的，定格动画，微缩景观，色彩丰富，保持风格一致

等会，北极有Rabbit吗？我不是很懂啊哥！！

生成4张，3D卡通风格，Q版全身照，海贼王路飞。他戴着标志性的黄色草帽，圆圆的脸蛋，黑色的短发，脸上挂着招牌式的开朗笑容。身穿一件橙色的短袖上衣，下身搭配蓝色的短裤，腰间系着棕色的腰带，脚蹬一双黑色的靴子。双手摆出经典的“橡胶拳”姿势，展现出充满活力的冒险家气质。比例为2:3，每张的主体形象和装扮装饰要保持一致