今天，智谱「新清影」上线，率先进入有声视频生成时代！还要继续开源宠粉

夕小瑶

已于 2024-11-10 15:17:53 修改

阅读量1.2k

点赞数 25

文章标签：人工智能

于 2024-11-10 15:11:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/143660874

版权

来，你先把手机音量打开，然后去“听”下面一段视频：

你是不是一脸懵逼？不知道我想表达什么？

视频是AI生成的并不奇怪，但你可能没法相信，这个视频的音效，也是AI生成的。

火车鸣笛

你要是不信，可以继续听几个（音效和视频均由AI生成）：

松鼠4K

等下，这个声音配的有点怪，也可能是我喇叭坏了，换一个...

再来个动物进食的。

小兔进食

我天，这音效配的，不止是没把剪映放眼里，连影视行业的音效师（Sound Designer）都要忍不住颤抖了。

这是智谱新推出的音效模型 CogSound ，本月即将在“智谱清言”里上线。

以后啊，忘掉你的音效素材库吧。视频和音效一把儿出，只想配音也没问题（偶尔遇到翻车的甚至更有喜感，有望成为一个新的流量赛道）。

我仔细玩了下，CogSound 对于视频语义和情感有不错的理解能力，音画同步也做的很流畅。像爆炸、动物叫声、乐器、城市噪声等比较常见的声音等，可以达到很高的可用性。但如果是一些人都不知道会发出啥声音的场景，就可能让AI蚌住。

比如给孟加拉巨蜥配音，我翻遍了整个Youtube也没找到一只开口叫出声的孟加拉巨蜥。这种就别为难AI了，它也是主要通过互联网数据来模仿学习动物叫声的

我还去扒了下CogSound的技术实现，直接挑重点讲下。

一方面，它采用优化后的U-Net结构作为扩散模型的核心框架，将音频生成从高维原始空间转到低维潜空间，大幅降低了计算复杂度，保证音频生成的高质量和高效率。

另一方面，引入了“分块时序对齐交叉注意力机制”，这个机制让CogSound能精准地将视频帧和音频特征对应起来，实现了画面和声音的完美同步；CogSound还用到了旋转位置编码，来确保生成的音频前后连贯，过渡自然。这个是音效流畅、过渡自然的重要因子。

从CogSound的这一波操作中，我更加能坚信一个事情。那就是，但凡某个工作，需要人去检索、扒拉的，理论上都能用生成式范式给定义一个新的任务出来，把用户检索query->满足用户query的内容构造成训练集，选择合适的大模型架构训个模型出来，然后本来要花大量时间去检索扒拉内容的那个工种，就因此被提效了。

比如，众所周知，程序员这个工作就是去百度/谷歌搜索别人的代码片段(误)，然后就有了编程大模型。

回到正题，CogSound是我认为智谱这波的AI视频生成升级中一个非常惊艳的feature，这也将使智谱清言成为国内首个告别默片、生成有声AI影片的产品。

除了CogSound外，清影也做了一波升级。

升级后的新清影现在可以生成更长、更高清的自带音效的视频。

10s时长：由5s增加到10s，16s视频也正在路上；
4K、60帧超高清画质；
支持任意比例的视频生成：比如9:16竖版视频，16:9横版视频，还有1:1、4:3、3:4。

除了基础功能升级外，我玩下来感知这次的图生视频功能也有了非常惊艳的进化，在质量、美学表现、运动合理性以及复杂提示词语义理解能力都有显著增强。

贴个我生成的视频给你们感受下：

人手的纹理和蜥蜴的皮肤纹理呈现的特别清晰，和现实几乎无异。

赛车

比如，飙车这种大幅的场景变化推进非常合理自然。

PS：新清影即日起就会在智谱清言网页和App 上线。

CogSound也会在本月上线，两者一起玩，说不定会打开新的流量密码

你要问为啥效果变得这么好了，一句话解释——

因为新清影背后的模型又又又升级了！这个进化速度简直让摩尔定律都汗颜。

为了拿到优质的训练数据，智谱专门构建了一个自动化的数据筛选框架，还训了一个用于标注视频数据的视频理解模型 CogVLM2-caption，来为视频生成高质量描述。

而且，这次在内容连贯性、可控性和训练效率上都进行了多项创新。自研了一个高效的三维变分自编码器结构（3D VAE），可以把原视频空间压缩至 2%，大大降低训练难度。另外，自研的transformer 架构融合文本、时间、空间3个维度，可以更好地将视觉信息与语义信息对齐。

必须要提的是，这次最新升级的CogVideoX 1.5，毫不意外的——

开源！

直接附上你们需要的传送门：

https://github.com/thudm/cogvideo

讲个比较恐怖的故事，一年多前世界上最先进的AI生成出来的视频还是很生硬的。如今，全链路自研的国产AI视频产品“智谱清影”，已经做到了音画同步地步，这个进展速度还是牛的。

看到智谱这波在视频生成的升级，说真的很开心，也很骄傲，我们与国外的差距正在以超预期的速度在缩小。

智谱、可灵这几位国产代表，正在逐渐拉近与国际水平的差距。不止如此，开源文化虽起源于美国，但在这波AI大模型的开源速度&进化速度上，我觉得智谱是国内的开源No.1。追OpenAI的人，成为Open AI。

而如果我们将目光从视频生成，拉远到整个多模态领域，你又会惊恐的发现一件事儿——

我觉得智谱的多模态模型生态真的快要“闭环”了。

除了智谱之外，我就没听说哪家模型同时有公开可用的文生图+文生视频+图生视频+音效生成+音乐生成+情感语音生成这一系列的多模态模型的。这个布局广度确实让我不禁好奇，等智谱把这个全链路打通后，是不是会引发什么神奇的化学反应，产生一系列AI新玩法。

从当前的技术积累就不难看出，沿着当前的速度继续迭代下去，可能用不了两年，我们或许只需要一个想法+一张底图，就能生成一段自带bgm、音效甚至配音的高可用视频。这不止影响的是影视行业的生产效率，这可能对于整个新媒体生态都会是一个巨大的冲击和机遇。

如今AI视频生成技术不够成熟，反物理的AI视频都能一波又一波的成为流量密码。随着技术的持续成熟，AI视频生成会逐渐从一个娱乐尝鲜的工具，蜕变成真正的生产力工具。

而对于我们大部分人来说，即便没有机遇去搞懂锤子是怎么造出来的，但若是能深谙锤子的用法和特性，或许，也能跟随AI浪潮迎风起飞。

速去智谱清言体验～

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。