视频生成大模型-可灵-全面测评

小殊小殊

已于 2024-11-13 20:36:05 修改

阅读量2.5k

点赞数 18

文章标签：人工智能视频

于 2024-07-26 07:51:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xian0710830114/article/details/140678674

版权

可灵主打文生视频和图生视频，就在前天（7月24日），全面开放内测。

废话不多说，下载“快影APP”，点击“生成视频”按钮，提交申请，很快就会通过。

审核通过后，再点击“生成视频”就可以体验了，功能分为文生视频和图生视频，视频分“高性能”和“高表现”，对应不用的“灵感值”，每天平台赠送66个“灵感值”。

花光所有“灵感值”，我得到了如下视频，“灵感值”所限，文生视频和图生视频分别只做了一个：

1.

视频质量：高表现

视频时长：5s

文字描述：一位时尚的女士走在东京的街道上，街道上布满了温暖发光的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多人四处走动。

可灵测评-东京街头的时尚美女-高表现

2.

视频质量：高性能

视频时长：5s

文字描述：一位时尚的女士走在东京的街道上，街道上布满了温暖发光的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多人四处走动。

可灵测评-东京街头的时尚女士

3.

视频质量：高性能

视频时长：5s

文字描述：背景是大风刮的大树摇晃。前景是两个水气球，一个装着红色液体，另一个装着绿色液体，分别从左右飞出，在镜头中部发生碰撞破裂，水花四溅，两种颜色也发生融合。

可灵测评-红绿气球

4.

视频质量：高性能

视频时长：5s

文字描述：一只牛头企鹅身子的动物，坐在铁轨上吃烤串

可灵测评-吃烤串的牛头企鹅

5.

视频质量：高性能

视频时长：5s

文字描述：一个五官精致的小女孩穿着旗袍，在巨大的花瓣上跳蒙古舞

可灵测评-跳舞小女孩

6.

视频质量：高性能

视频时长：5s

文字描述：一个五官精致的亚洲小女孩穿着校服在玫瑰花瓣上跳锁舞

可灵测评-校服小女孩

7.

视频质量：高性能

视频时长：5s

文字描述：动画场景特写了一个毛茸茸的短怪物跪在正在变红的蜡烛旁。艺术风格是3D和逼真的，重点是照明和纹理。这幅画的主题是好奇和好奇，因为怪物睁大眼睛张大嘴巴凝视着火焰。它的姿势和表情传达出一种天真无邪的感觉，仿佛它是第一次探索周围的世界。温暖的色彩和戏剧性的灯光的使用进一步增强了图像的舒适氛围。

可灵测评-玩蜡烛的小妖怪

8.图生视频-挺好~

视频质量：高表现

视频时长：5s

文字描述：一个白裙子美女，缓缓向镜头走来，脸上洋溢着阳光的笑容，裙子很飘逸。

引导图：

可灵测评-飘逸的白裙小姐姐

9.图生视频-中规中矩~

视频质量：高性能

视频时长：5s

文字描述：一个穿白裙的美女在看书，面带微笑，并缓缓点头，裙摆飘逸，微风吹动头发。

参考图：

可灵测评-美女看书

10.图生视频-很难绷~

视频质量：高性能

视频时长：5s

文字描述：一个美女在跳舞，开始背对着屏幕，然后开始转圈，转到正面，脸上洋溢着青春的笑容，披肩长发自然飘动。手一直背在身后，两腿交替跳舞。

参考图：

可灵测评-跳舞小姐姐

现在我们可以简单的总结一下可灵的特点：

1.一致性优秀

从生成的5s视频来看，可灵的一致性是很好的，没有乱入、ID change等问题，人物的动作也很丝滑。

2.物理世界特性优秀

很多物理世界的细节做的很好，如1、2、6中的衣服摆动；7的火苗；当然也有问题，如3的启动碰撞。。。

4.可控性及格

可控性就是模型的“听话程度”，正常情况下可灵还是听话的（如1、2、4、7），遇到一些特殊情况，恐怕就力不从心了，如5、6其实我是想这样的：

3.人脸效果

不用特意提示，默认面孔就是亚洲人脸，这一点一定要给好评！！！

人脸比较大的时候质量还是很好的，比如5、6；一旦背景复杂，人脸较小，就一言难尽了，如1、2.

4.高表现

高表现的视频质量确实好于高性能，但是对比较小的脸处理似乎还是不太好，这个东京女士太丑了。
5.特征组合能力

特征组合能力还不错，比如4；但是在一些复杂的任务上会忽略掉一些指令，如3中背景的树没有动、5中小女孩跳的不是蒙古舞、6中小女孩条的也不是锁舞。

6.图生视频

将一张图片做轻微的物理运动，包括人面部和肢体的动作不大的基本动作效果尚可；太复杂的动作或者重新绘制脸部的任务还是放弃吧！

可灵作为第一款面向大众开放的视频视频生成大模型勇气可嘉，进步空间也很大。

有一句话形容当下的视频生成大模型非常贴切：现在的视频生成大模型被高估了，以后的视频生成大模型被低估了。看来该领域还有很长的路要走啊。

可灵的测评就到这里，关注不迷路(*^▽^*)

还在为找工作烦恼吗，用这个宝藏小程序，拿Offer快人一步！Offer入口》》》

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小殊小殊 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。