国产！首个实时视频交互的功能面世，智谱硬实力炸场KDD顶会

夕小瑶

于 2024-08-30 10:40:24 发布

阅读量1.5k

点赞数 19

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/141711314

版权

今天的文章，必须放一个视频来作为开头。

交互视频

你以为是OpenAI终于发布实时视频交互的GPT-4o了？

No！No！

OpenAI的拖延症已经被诟病很久了。支持实时语音视频互动的多模原生版GPT-4o也迟迟没上线.......

拖麻了，也就没那么期待了。

但是，

就在今天，国产AI厂商「智谱」在KDD顶会现场放了三个重磅炸弹：基座模型、视频通话，还有开源！

先来看看「智谱清言APP」上线的视频通话功能。

直接放Demo：

必须强调的是，智谱这次是在聚集全球顶尖AI科学家的顶级会议——KDD现场进行的官宣。这是什么概念，没有充分强大自信的技术&研究实力，谁敢跑到顶级学术会议上去开产品发布会啊。。。

就算你敢开，没有100分的实力，KDD顶会也不敢给你批啊。。。

看到这儿你可能会质疑，没看到真实效果前说啥也不信。

没事，在抢内测资格这方面，夕小瑶科技说向来手速自信！

测评

来！

需要注意的是，视频通话功能目前仅面向清言部分用户开放，但也开放了内测资格的外部申请。官方表示会逐渐放开，不久就能人人可用了！

暂时没拿到内测资格的小伙伴也不用担心，因为，接下来我们会在视频号发布一系列关于智谱清言视频通话的实测case的！

而第二个炸弹，则是毫不意外的——

智谱又有硬核的底座大模型发布了！

我本以为是语言模型刷个榜而已，没想到多模态能力提升直接炸了我一脸...

比肩GPT-4o的国产之光？不，我觉得GLM-4(V)-Plus更牛

老规矩，先划重点：

同时发布了语言基座模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus、文生图模型CogView-3-Plus、视频生成模型 CogVideoX，前三个即将上线智谱AI开放平台（bigmodel.cn），后一个直接开源。
GLM-4-Plus模型在语言理解、指令遵循、长文本处理等方面性能得到全面提升，与GPT-4o能力打平。
GLM-4V-Plus不仅可以理解图像，而且具备基于时间感知的视频理解能力，是国内首个通用视频理解模型API。
CogView-3-Plus文生图模型出图质量堪比MidJourney。
CogVideoX视频生成模型大幅增强，且直接开源。

在本轮GLM系列的模型升级中，智谱使用了大量模型辅助构造高质量合成数据，并利用PPO有效有效提升模型推理能力，在数学、代码算法题等场景表现显著提升。

先来看看 GLM-4-Plus 模型在语言类经典benchmark的评测结果：

可以看到，GLM-4-Plus在经典的语言理解、数学、代码等经典测试基准上已经与GPT-4o的表现非常接近了。

而在长文本测试基准上，同样表现亮眼：

尤其是在InfiniteBench数据集上，表现超越了Claude Sonnet 3.5、Llama 405B等一众海外明星模型。

而我觉得在这一轮的升级中，更亮眼的还是智谱的多模态能力升级，说是炸了一脸也不为过。

在很多人眼里GPT-4o是多模态战场上永远的神，但如果我贴这样一张表呢：

是不是可以很直观的理解，为啥我说 GLM-4V-Plus 可能是本轮更大的看点了吧！

虽然当前，有很多闭源和开源模型声称能做视频理解任务，但多数是在视频的空间建模上表现的还可以，一旦提问涉及到复杂的时序建模，往往就抓瞎了，GPT-4o也不例外。

而GLM-4V-Plus不仅在基础的视觉 Benchmark 上提升显著，而且显著提升了模型在视频时序方面的建模能力。

这样说你可能觉得比较抽象，放个官方放出来的视频理解Demo就懂了——

basketball

提问：这个穿绿色衣服的球员在整个视频都做了什么？
GLM-4V-Plus：在整个视频中，穿绿色衣服的球员在场上运球，然后跳起将球投入篮筐。
提问：这个视频的精彩时刻是什么？发生在第几秒？
GLM-4V-Plus：这个视频的精彩时刻发生在第4秒，当时穿绿色衣服的球员跳起并将球投入篮筐。

相信算法出身的小伙伴，都能通过以上AI的回答很直接的感受到GLM-4-Plus模型强大的 视频摘要+推理+时间问答能力。

除了上述模型之外，笔者还发现了一个宝藏模型升级点——智谱文生图模型迎来最新版本CogView-3-Plus，其效果接近目前最佳的MidJourney-V6及FLUX等模型，并支持图片编辑功能。

你们看这画质的细腻度：

要不是我提前跟你们剧透，你们是不是还以为这是MJ画出来的？

而作为AI开发者，笔者当然还要问一嘴——有没有啥模型开源嘞？？

智谱果然没让我失望——

视频生成模型 CogVideox 5B 版本正式开源！

相比之前开源的2B版本，5B版本的性能进一步增强，无疑成为当前开源视频生成模型中的不二选择。

顺便分享一个在会上听到的数据——智谱开源模型累计下载量已默默突破2000 万次。

总的来说，智谱今年以来大动作太多了，从GLM模型串烧式更新、大模型API价格战、上线AI视频产品、开源社区建设、清影产品系列升级等，基本上是没消停过。

可以说，团队背后的技术储备对标 openai 实力还是有的。而更重要的是，智谱吹得牛个个都落地了啊，从来不会藏着掖着，发布即上线，发布及开放，这很智谱。

而且还积极开源开放，从这个视角上来说，我觉得智谱才像个“OpenAI

不说了，我先冲了！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。