说实话人对曾经否定过的东西是存在偏见的
AI图像生成刚出来那会儿,确实让人眼前一亮。输入几个关键词,就能得到各种脑洞大开的图片,无论是朋友圈分享还是单纯满足好奇心,都挺有意思的。像Midjourney、Stable Diffusion这些工具,也迅速在设计圈和科技爱好者中流行起来。
但新鲜感过后,当我想把这些工具正经用在工作或学习中,比如为PPT配图、设计公众号封面,甚至构思产品雏形时,往往效果不尽如人意。
豆包图像生成超能创意 1.0已经更新了快一个月了,目前还在灰度测试当中。但是,我心里是存疑的。毕竟,AI领域的新概念和新产品层出不穷,真正能解决实际问题的并不多。但我还是不情愿的决定试一下,这一试不要紧,发现
哎好像。。。好像能行!那就针对以前的一些痛点问题,看看到底有几斤几两。
痛点1:文字易错位或变形
以往在AI生成图片中处理文字,确实是一大难题。一句简单的“开业大吉”,都可能变成“开业大犬”,并且生成的文字极有可能可能会错位、变形。这次的效果如何话不多说直接上图:
帮我生成4张图片,摄影,俯瞰在草地上有用白色乐高积木拼起来的“端午·安康”几个大字,阳光明媚,有乐高小人正在包粽子、赛龙舟,周围还摆放着一些绿色的艾草和五彩的香囊,横版16:9。
咱就是说“端午·安康”这四个字没毛病吧,中文的表现也算是相当可以了。
下面再试一下英文,一般来说英文的表现会比中文更好一些,emmmm怎么说呢,可能中文的复杂程度对于久不提笔的我来说都有点怕的
生成4张不同动物单词记忆配图,画面中要出现单词和相对应的画面,画面的风格和格式统一,图片的风格是 3d 卡通风格
怎么样,整体上文字的表现我是觉得ok的,文字不仅准确无误地呈现出来,没有错别字和变形,而且在字体选择、颜色搭配和排版布局上,也提供了相对合理的默认效果
痛点2:风格的一致性较差
所谓风格的一致性,一方面指的是图片内容的环境、氛围已经表现形式是一致的,另一方面指的是角色的统一性,包括形态和装饰等。
可能你想生成一个系列图片,用于故事创作、幼儿教育、知识科普等场景,保持风格上的一致性就至关重要。但实际操作中,即便使用相同的提示词和模型,得到的图片内容也可能大相径庭,就像开盲盒,只能得到单次的惊喜,而不是持续性的快乐。
所以:
生成4张毛茸茸的北极动物,干净的画面,干净的背景,景深,毛毡画,羊毛毡,鲜艳的色彩,童趣,异想天开的,蓬松的,定格动画,微缩景观,色彩丰富,保持风格一致
等会,北极有Rabbit吗?我不是很懂啊哥!!
生成4张,3D卡通风格,Q版全身照,海贼王路飞。他戴着标志性的黄色草帽,圆圆的脸蛋,黑色的短发,脸上挂着招牌式的开朗笑容。身穿一件橙色的短袖上衣,下身搭配蓝色的短裤,腰间系着棕色的腰带,脚蹬一双黑色的靴子。双手摆出经典的“橡胶拳”姿势,展现出充满活力的冒险家气质。比例为2:3,每张的主体形象和装扮装饰要保持一致
怎么说,基本上是满意的,跟之前相比在这方面给我的感觉是“更稳定了一些”,整体的视觉风格、色彩基调都保持了较好的一致性,甚至人物主体都几乎保持不变
不过也有些小瑕疵,两个脑袋的路飞???
当然,面对更精细的描述或者人物塑造时,出现了更多的不稳定性
生成4张Q版3D卡通风格动画游戏角色设计吕布,身着黑色战袍,金色长发束于冠,绿色锐利眼神。战袍绣金龙纹,内衬银甲,腰束黑带,垂红流苏。右手持方天画戟,腰悬宝剑。比例2:3,色调黑、金、红,威严又可爱。
仔细看的话,方天画戟、束发以及腰带等装饰物还是有区别,当然做到这个程度,还给免费试用,还要什么自行车?要什么自行车!
痛点3:多尺寸适配效率低
公众号文章需要横版头图,社交媒体分享可能需要方形图片,视频封面又是竖版……同一个创意,往往需要适应多种尺寸。如果让AI直接生成不同尺寸,构图很可能就乱了,主体内容被裁剪。如果先生成一张标准图再手动裁剪,又容易损失细节和清晰度。一来二去,在尺寸适配上花费的时间,远超预期。
如果能一句话生不同尺寸,还能自适应主体内容,是不是你想要的?
还把咱们的路飞请上来
以这个图为参考,生成 4 张图,2张的比例是 3:4,1张图的比例是 10:3,1张图的比例是 16:9。还要根据不同的画幅比例调整画面重点内容,海报需要能体现是同一个人物。
还是一致性上有点小问题,但是尺寸问题算是解决了
再来看官方的示例
但是我用同样的提示词试了一下,结果,哈哈哈哈,扔个表情包自己体会
痛点4:图片编辑的准确性
“这里背景能不能换一下?”“这个元素的颜色调整一下?”期望AI能像个P图助手一样精准编辑。但很多时候,AI的编辑功能更像是在“大概理解”。想微调某个细节,它可能会对整个区域进行大刀阔斧的修改,甚至引入新的问题。
这种指东打西的编辑体验,直接让我重装一手PS。。。
通过一句话实现连续调整、编辑图片的效果,我愿称之为语言式AI图片编辑,最先由GPT-4o的原生多模态图像生成功能推至高潮。那么豆包这次的更新也算是后来者了吧,先说结论,很强!!
我让把图片中小狗的衣服换个颜色,完美实现
值得注意的是,这次主体的一致性出奇的好,相似度至少能达到95%
不过我还觉得不过瘾,继续加码
设计一款"Sunny Summer"的艺术字体,要儿童版可爱的风格,表现出夏季的热烈和美好
Sunny Summer从艺术字,一句话编辑成气球样式,是我要的样子。
细节表现同样良好
综合测试下来,豆包创意超能1.0在基础测试上给我的感受是积极的
它确实在努力解决以往AI图像工具在实际应用层面存在的一些关键问题
在文字处理、风格一致性、多尺寸适配和图片编辑准确性等方面的改进,无一不证明了正在向着“实用化”、“工具化”的方向迈进。
但是,现在的创意超能1.0 Bate版本相较之前的模型升级3.0版本来说稳定性变差了,生成的主体形象和画面过于天马行空,同时对指令不完全遵循的问题也经常出现
好了,至此基础测试完毕
你以为以上内容就是天花板?
——接下来我们要干件大事
把豆包扔进地狱级测试
如果你觉得这篇文章还不错,就顺手一键三连!感谢你抽出时间来看我的文章,下次再见啦!