早在 7 月初就介绍过了,恍如隔世啊,由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,当时引起了不小的热度。 现如今总算是开源 kyutai-labs/moshi 了,官方的演示还是在 moshi.chat,试用下来没啥太多变化。