比OpenAI的Whisper快50%,最新开源语音模型

生成式AI初创公司aiOla在官网开源了最新语音模型Whisper-Medusa,推理效率比OpenAI开源的Whisper快50%。

aiOla在Whisper的架构之上进行了修改采用了“多头注意力”机制的并行计算方法,允许模型在每个推理步骤中预测多个token,同时不会损失性能和识别准确率。

开源地址:

https://github.com/aiola-lab/whisper-medusa

huggingface:

https://huggingface.co/aiola/whisper-medusa-v1

传统的Transformer架构在生成序列时,是遵循逐个token的顺序预测过程。这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。

这虽然能够确保生成序列的连贯性和上下文相关性,但也有一个非常明显的缺陷——极大限制了模型的推理效率

此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。

 

 而Whisper-Medusa使用了10头的多注意力机制, 能各自独立地计算注意力分布并行地处理输入,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。

随后向量被送入全连接层进行进一步的处理,以生成最终的token预测。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。

为了使多头注意力机制在Whisper-Medusa模型中更高效地运行,aiOla采用了弱监督的方法,在训练过程中冻结了原Whisper模型的主要组件,使用该模型生成的音频转录作为伪标签来训练额外的token预测模块

使得模型即便没有大量手动人工标注数据的情况下,依然能够学习到有效的语音识别模式。

此外在训练过程中,Whisper-Medusa的损失函数需要同时考虑预测的准确性和效率。一方面,模型需要确保预测的token序列与实际转录尽可能一致;

另一方面,通过多头注意力机制的并行预测,模型被鼓励在保证精度的前提下,尽可能地加快预测效率。

aiOla使用了学习率调度、梯度裁剪、正则化等多种方法,确保模型在训练过程中能够稳定收敛,同时避免过拟合性。

业务场景方面, Whisper-Medusa能理解100多种语言,用户可以开发音频转录、识别等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。

aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理效率将再次获得大幅度提升。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随着人口老龄化和空巢化等社会问题的日益严峻,养老问题及以及养老方式的变革成为了当前社会的发展焦点,传统的养老模式以救助型和独立型为主,社会养老的服务质量与老年人的养老需求还存在一定的差距,人们生活水平的提高以及养老多元化需求的增加都需要通过创新和灵活开放的养老模式来应对未来的养老需求,结合目前我国养老模式及养老服务问题的内容的分析,互助养老模式作为一种新型的养老模式结合自主互助的集体养老理念,帮助老年人实现了满足个性需求的养老方案,互助养老模式让老年人具备了双重角色的同时也实现可持续的发展特色。目前我国老年人的占比以每年5%的速度在飞速增长,养老问题及养老服务的提供已经无法满足当前社会养老的切实需求,在养老服务质量和养老产品的变革过程中需要集合多元化的养老模式来满足更多老人的养老需求。 鉴于我国目前人口老龄化的现状以及迅速扩张的养老服务需求,现有的养老模式已经无法应对和满足社会发展的需求,速增长的养老人员以及养老服务供给不足造成了紧张的社会关系,本文结合当前养老服务的发展需求,利用SSM框架以及JSP技术开发设计一款正对在线互助养老的系统,通过系统平台实现养老机构信息的传递及线上预约,搭建了起了用户、养老机构以及系统管理员的三方数据平台,借助网页端实现在线的养老互助信息查询、养老机构在线预约以及求助需求等功能,通过自养互养的养老模式来帮助老年人重新发现自我价值以及丰富养老的主观能动性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值