沸腾吧!全球首个开源GPT-4o全面发布原创 6月底,OpenAI宣布推迟发布语音功能和GPT5,7月3日晚,法国一个仅有

沸腾吧!全球首个开源GPT-4o全面发布

原创 弹贝斯的鱼 带你学AI 

图片

6月底,OpenAI宣布推迟发布语音功能和GPT5,7月3日晚,法国一个仅有 8 人的非营利性 AI 研究机构 —Kyutai,发布震惊世界的模型Moshi,具备听、说、看的多模态功能。(访问链接在文章末尾

更加震撼的是他们在短短 6 个月内就完成了Moshi的开发工作。从效果演示来,Moshi可以随时聆听和实时交谈,表达自然、流畅,甚至还能模仿快乐、悲伤等70种不同情绪和说话风格。不仅如此 ,Moshi还可以进行角色扮演,能用海盗身份给你讲一个冒险故事。

该模型具备的功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美,但模型要小得多。“Moshi 在说话时思考。”Kyutai 首席执行官帕特里克·佩雷斯 (Patrick Pérez) 表示,Moshi 具有彻底改变人机通信的潜力。这种实时交互基于文本和音频的联合预训练,利用了Kyutai开发的7B参数语言模型Helium的合成文本数据。

,时长00:35

值得一提的是,Kyutai 的所有模型都是开源的。之后,该团队不仅计划发布完整模型,包括推理代码库、7B 模型、音频编解码器和优化堆栈。图灵奖得主 Yann LeCun 分享说:“Moshi 可以听懂带有法国口音的英语。”就连 PyTorch 之父 Soumith Chintala 也向 Kyutai 表示了祝贺,并透露该团队某成员是他在 Meta 的 AI 研究团队 FAIR 的前同事

图片

Moshi的训练过程非常严格,细调了100,000个带有情感和风格注释的高细节转录文本。支持70种不同情感和风格的文本到语音引擎在由一名叫Alice的授权配音员录制的20小时音频上进行了细调。该模型设计适应性强,可以在不到30分钟的音频中进行细调。

图片

在发布现场的一系列演示中,Moshi 是在没有互联网连接的标准 MacBook Pro 上运行。Kyutai 团队与 Moshi 进行互动,展示了其在各种说话风格之间无缝切换,以及在角色扮演中迅速化身的创造力。甚至我们可以看到回答速度是如此的惊人,还会抢话。

,时长01:35

演示者和Moshi换一个话题,聊一聊爬珠穆朗玛峰。Moshi在对话过程中,为其建议了登山装备、提前做哪些准备、海拔信息等等。我们发现 Moshi 还会开些小玩笑:你肯定不想穿着凉鞋去爬山。

,时长03:10

接着,同事Nell尝试用不同风格的语气和Moshi去说话。他要求Moshi用法语口音,去朗诵一首关于巴黎的诗。然后,又让Moshi假装是一位海盗,去讲述冒险的经历。可以看到,Moshi迅速转变语气。最后,Moshi还可以用一种低声细语的声音,去讲述《黑客帝国》电影中的情节。

,时长03:27

最后一个展示,主要是角色扮演和剧本演示,讲述星际迷航,指挥官和舰长的探索故事。

我们可以直观的看出,一些很明显的优势和不足:

  • Kyutai 声称 Moshi 的理论延迟仅为 160 毫秒,而实际上,它在 200 到 240 毫秒之间。(反应速度极快)

  • Moshi 可以很好的融入对话语境,理解对话情绪。

  • Moshi 支持多流音频,使其能够同时收听和响应,从而实现自然流畅的前后对话,其中中断和重叠的语音很常见。

  • 不支持中文普通话,主流语言为英语,同时也支持法语。

  • 回答内容有限,Moshi回答详细程度比ChatGPT那种纯文本差

  • 视觉处理暂时并未体现。

图片

模型采用了I/O双通道系统,同时生成文本token音频编解码器。具体来说,语言模型Helium-7B从头先开始训练,然后再与文本、语音编码器联合训练。该语音编解码器基于Kyutai的内部Mimi模型,压缩系数高达 300 倍,可捕捉语义声学信息。

图片

Moshi 的微调过程涉及使用文本到语音 (TTS) 技术转换的 100,000 个「口语风格」的合成对话。模型的语音在一个单独的 TTS 模型生成的合成数据上进行训练,实现了仅200 毫秒端到端延迟。

图片

为了确保音频的安全性,Kyutai将会为生成音频附上水印,并在数据库中对生成的音频进行索引。

图片

最后,作者值得一提的是,这个团队太强大了,这个团队成员均为科学家出身,一年融资3亿欧元。最令我感到佩服的是,他们是一家非营利性机构,该实验室坚决致力于AI的民主化,并将自己定位为AI开放科学的领导者,旨在与全球AI生态系统分享其进展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值