国产!首个实时视频交互的功能面世,智谱硬实力炸场KDD顶会

今天的文章,必须放一个视频来作为开头。

交互视频

你以为是OpenAI终于发布实时视频交互的GPT-4o了?

No!No!

OpenAI的拖延症已经被诟病很久了。支持实时语音视频互动的多模原生版GPT-4o也迟迟没上线.......

拖麻了,也就没那么期待了。

但是,

就在今天,国产AI厂商「智谱」在KDD顶会现场放了三个重磅炸弹:基座模型、视频通话,还有开源!

先来看看「智谱清言APP」上线的视频通话功能。

直接放Demo:

必须强调的是,智谱这次是在聚集全球顶尖AI科学家的顶级会议——KDD现场进行的官宣。这是什么概念,没有充分强大自信的技术&研究实力,谁敢跑到顶级学术会议上去开产品发布会啊。。。

就算你敢开,没有100分的实力,KDD顶会也不敢给你批啊。。。

看到这儿你可能会质疑,没看到真实效果前说啥也不信。

没事,在抢内测资格这方面,夕小瑶科技说向来手速自信!

测评

来!

需要注意的是,视频通话功能目前仅面向清言部分用户开放,但也开放了内测资格的外部申请。官方表示会逐渐放开,不久就能人人可用了!

暂时没拿到内测资格的小伙伴也不用担心,因为,接下来我们会在视频号发布一系列关于智谱清言视频通话的实测case的!

而第二个炸弹,则是毫不意外的——

智谱又有硬核的底座大模型发布了! 

我本以为是语言模型刷个榜而已,没想到多模态能力提升直接炸了我一脸...

比肩GPT-4o的国产之光?不,我觉得GLM-4(V)-Plus更牛

老规矩,先划重点:

  1. 同时发布了语言基座模型GLM-4-Plus、图像/视频理解模型GLM-4V-Plus、文生图模型CogView-3-Plus、视频生成模型 CogVideoX,前三个即将上线智谱AI开放平台(bigmodel.cn),后一个直接开源。

  2. GLM-4-Plus模型在语言理解、指令遵循、长文本处理等方面性能得到全面提升,与GPT-4o能力打平。

  3. GLM-4V-Plus不仅可以理解图像,而且具备基于时间感知的视频理解能力,是国内首个通用视频理解模型API。

  4. CogView-3-Plus文生图模型出图质量堪比MidJourney。

  5. CogVideoX视频生成模型大幅增强,且直接开源。

在本轮GLM系列的模型升级中,智谱使用了大量模型辅助构造高质量合成数据,并利用PPO有效有效提升模型推理能力,在数学、代码算法题等场景表现显著提升。

先来看看 GLM-4-Plus 模型在语言类经典benchmark的评测结果:

可以看到,GLM-4-Plus在经典的语言理解、数学、代码等经典测试基准上已经与GPT-4o的表现非常接近了。

而在长文本测试基准上,同样表现亮眼:

尤其是在InfiniteBench数据集上,表现超越了Claude Sonnet 3.5、Llama 405B等一众海外明星模型。

而我觉得在这一轮的升级中,更亮眼的还是智谱的多模态能力升级,说是炸了一脸也不为过。

在很多人眼里GPT-4o是多模态战场上永远的神,但如果我贴这样一张表呢:

是不是可以很直观的理解,为啥我说 GLM-4V-Plus 可能是本轮更大的看点了吧!

虽然当前,有很多闭源和开源模型声称能做视频理解任务,但多数是在视频的空间建模上表现的还可以,一旦提问涉及到复杂的时序建模,往往就抓瞎了,GPT-4o也不例外。

而GLM-4V-Plus不仅在基础的视觉 Benchmark 上提升显著,而且显著提升了模型在视频时序方面的建模能力。

这样说你可能觉得比较抽象,放个官方放出来的视频理解Demo就懂了——

basketball

提问:这个穿绿色衣服的球员在整个视频都做了什么?
GLM-4V-Plus:在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。
提问:这个视频的精彩时刻是什么?发生在第几秒?
GLM-4V-Plus:这个视频的精彩时刻发生在第4秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

相信算法出身的小伙伴,都能通过以上AI的回答很直接的感受到GLM-4-Plus模型强大的 视频摘要+推理+时间问答能力

除了上述模型之外,笔者还发现了一个宝藏模型升级点——智谱文生图模型迎来最新版本CogView-3-Plus,其效果接近目前最佳的MidJourney-V6及FLUX等模型,并支持图片编辑功能。

你们看这画质的细腻度:

要不是我提前跟你们剧透,你们是不是还以为这是MJ画出来的?

而作为AI开发者,笔者当然还要问一嘴——有没有啥模型开源嘞??

智谱果然没让我失望——

视频生成模型 CogVideox 5B 版本正式开源!

相比之前开源的2B版本,5B版本的性能进一步增强,无疑成为当前开源视频生成模型中的不二选择。

顺便分享一个在会上听到的数据——智谱开源模型累计下载量已默默突破2000 万次。

总的来说,智谱今年以来大动作太多了,从GLM模型串烧式更新、大模型API价格战、上线AI视频产品、开源社区建设、清影产品系列升级等,基本上是没消停过

可以说,团队背后的技术储备对标 openai 实力还是有的。而更重要的是,智谱吹得牛个个都落地了啊,从来不会藏着掖着,发布即上线,发布及开放,这很智谱。

而且还积极开源开放,从这个视角上来说,我觉得智谱才像个“OpenAI

不说了,我先冲了!

  • 11
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值