AI生图的那些“坑”,豆包“创意超能1.0”这次能填平吗?(上)

说实话人对曾经否定过的东西是存在偏见的

AI图像生成刚出来那会儿,确实让人眼前一亮。输入几个关键词,就能得到各种脑洞大开的图片,无论是朋友圈分享还是单纯满足好奇心,都挺有意思的。像Midjourney、Stable Diffusion这些工具,也迅速在设计圈和科技爱好者中流行起来。

但新鲜感过后,当我想把这些工具正经用在工作或学习中,比如为PPT配图、设计公众号封面,甚至构思产品雏形时,往往效果不尽如人意。

豆包图像生成超能创意 1.0已经更新了快一个月了,目前还在灰度测试当中。但是,我心里是存疑的。毕竟,AI领域的新概念和新产品层出不穷,真正能解决实际问题的并不多。但我还是不情愿的决定试一下,这一试不要紧,发现

哎好像。。。好像能行!那就针对以前的一些痛点问题,看看到底有几斤几两。

痛点1:文字易错位或变形

以往在AI生成图片中处理文字,确实是一大难题。一句简单的“开业大吉”,都可能变成“开业大犬”,并且生成的文字极有可能可能会错位、变形。这次的效果如何话不多说直接上图:

帮我生成4张图片,摄影,俯瞰在草地上有用白色乐高积木拼起来的“端午·安康”几个大字,阳光明媚,有乐高小人正在包粽子、赛龙舟,周围还摆放着一些绿色的艾草和五彩的香囊,横版16:9。

咱就是说“端午·安康”这四个字没毛病吧,中文的表现也算是相当可以了。

下面再试一下英文,一般来说英文的表现会比中文更好一些,emmmm怎么说呢,可能中文的复杂程度对于久不提笔的我来说都有点怕的

生成4张不同动物单词记忆配图,画面中要出现单词和相对应的画面,画面的风格和格式统一,图片的风格是 3d 卡通风格

怎么样,整体上文字的表现我是觉得ok的,文字不仅准确无误地呈现出来,没有错别字和变形,而且在字体选择、颜色搭配和排版布局上,也提供了相对合理的默认效果

痛点2:风格的一致性较差

所谓风格的一致性,一方面指的是图片内容的环境、氛围已经表现形式是一致的,另一方面指的是角色的统一性,包括形态和装饰等。

可能你想生成一个系列图片,用于故事创作、幼儿教育、知识科普等场景,保持风格上的一致性就至关重要。但实际操作中,即便使用相同的提示词和模型,得到的图片内容也可能大相径庭,就像开盲盒,只能得到单次的惊喜,而不是持续性的快乐。

所以:

生成4张毛茸茸的北极动物,干净的画面,干净的背景,景深,毛毡画,羊毛毡,鲜艳的色彩,童趣,异想天开的,蓬松的,定格动画,微缩景观,色彩丰富,保持风格一致

等会,北极有Rabbit吗?我不是很懂啊哥!!

生成4张,3D卡通风格,Q版全身照,海贼王路飞。他戴着标志性的黄色草帽,圆圆的脸蛋,黑色的短发,脸上挂着招牌式的开朗笑容。身穿一件橙色的短袖上衣,下身搭配蓝色的短裤,腰间系着棕色的腰带,脚蹬一双黑色的靴子。双手摆出经典的“橡胶拳”姿势,展现出充满活力的冒险家气质。比例为2:3,每张的主体形象和装扮装饰要保持一致

怎么说,基本上是满意的,跟之前相比在这方面给我的感觉是“更稳定了一些”,整体的视觉风格、色彩基调都保持了较好的一致性,甚至人物主体都几乎保持不变

不过也有些小瑕疵,两个脑袋的路飞???

当然,面对更精细的描述或者人物塑造时,出现了更多的不稳定性

生成4张Q版3D卡通风格动画游戏角色设计吕布,身着黑色战袍,金色长发束于冠,绿色锐利眼神。战袍绣金龙纹,内衬银甲,腰束黑带,垂红流苏。右手持方天画戟,腰悬宝剑。比例2:3,色调黑、金、红,威严又可爱。

仔细看的话,方天画戟、束发以及腰带等装饰物还是有区别,当然做到这个程度,还给免费试用,还要什么自行车?要什么自行车!

痛点3:多尺寸适配效率低

公众号文章需要横版头图,社交媒体分享可能需要方形图片,视频封面又是竖版……同一个创意,往往需要适应多种尺寸。如果让AI直接生成不同尺寸,构图很可能就乱了,主体内容被裁剪。如果先生成一张标准图再手动裁剪,又容易损失细节和清晰度。一来二去,在尺寸适配上花费的时间,远超预期。

如果能一句话生不同尺寸,还能自适应主体内容,是不是你想要的?

还把咱们的路飞请上来

以这个图为参考,生成 4 张图,2张的比例是 3:4,1张图的比例是 10:3,1张图的比例是 16:9。还要根据不同的画幅比例调整画面重点内容,海报需要能体现是同一个人物。

还是一致性上有点小问题,但是尺寸问题算是解决了

再来看官方的示例

但是我用同样的提示词试了一下,结果,哈哈哈哈,扔个表情包自己体会

痛点4:图片编辑的准确性

“这里背景能不能换一下?”“这个元素的颜色调整一下?”期望AI能像个P图助手一样精准编辑。但很多时候,AI的编辑功能更像是在“大概理解”。想微调某个细节,它可能会对整个区域进行大刀阔斧的修改,甚至引入新的问题。

这种指东打西的编辑体验,直接让我重装一手PS。。。

通过一句话实现连续调整、编辑图片的效果,我愿称之为语言式AI图片编辑,最先由GPT-4o的原生多模态图像生成功能推至高潮。那么豆包这次的更新也算是后来者了吧,先说结论,很强!!

我让把图片中小狗的衣服换个颜色,完美实现

值得注意的是,这次主体的一致性出奇的好,相似度至少能达到95%

不过我还觉得不过瘾,继续加码

设计一款"Sunny Summer"的艺术字体,要儿童版可爱的风格,表现出夏季的热烈和美好

Sunny Summer从艺术字,一句话编辑成气球样式,是我要的样子。

细节表现同样良好

综合测试下来,豆包创意超能1.0在基础测试上给我的感受是积极的

它确实在努力解决以往AI图像工具在实际应用层面存在的一些关键问题

在文字处理、风格一致性、多尺寸适配和图片编辑准确性等方面的改进,无一不证明了正在向着“实用化”、“工具化”的方向迈进。

但是,现在的创意超能1.0 Bate版本相较之前的模型升级3.0版本来说稳定性变差了,生成的主体形象和画面过于天马行空,同时对指令不完全遵循的问题也经常出现

好了,至此基础测试完毕

你以为以上内容就是天花板?

——接下来我们要干件大事

把豆包扔进地狱级测试

如果你觉得这篇文章还不错,就顺手一键三连!感谢你抽出时间来看我的文章,下次再见啦!

补充说明

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值