1.6K+ Star!Ichigo:一个开源的实时语音AI项目

Ichigo 简介

Ichigo[1] 是一个开放的、持续进行的研究项目,目标是将基于文本的大型语言模型(LLM)扩展,使其具备原生的“听力”能力。

可以将其视为一个开放数据、开放权重、设备上的 Siri。该项目采用了早期融合技术,灵感来源于Meta的Chameleon论文。

项目特点

主要特点
  • 早期融合技术:Ichigo使用的早期融合技术是指将语音信号和文本信息在模型的早期阶段就进行结合,形成一个统一的表示。

  • 多轮对话能力:Ichigo具备改进的多轮对话能力,并能拒绝处理听不清楚的查询。

  • 开放研究实验:Ichigo是一个开放的研究实验,鼓励社区参与和协作。

  • 模型训练公开:Ichigo的训练过程是公开的,包括不同版本的模型检查点和详细的技术细节。

使用场景

Ichigo 适用于需要实时语音识别和处理的场景,如智能助手、语音控制应用等。

项目使用

快速开始(Google Colab)

可以通过以下链接尝试Ichigo的最新模型: 在Colab中打开[2]

合成数据生成

有关合成数据生成的详细

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值