我自己的原文哦~ https://blog.51cto.com/whaosoft/13885619
#Aero-1-Audio
LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
小参数、高性能、长上下文,性能优于Whisper和ElevenLabs。
导读:音频大模型领域再迎新星。近日,LMMs-Lab发布了一款轻量级但性能出众的音频大模型——Aero-1-Audio。该模型基于Qwen-2.5-1.5B语言模型构建,在参数量仅为1.5B的情况下,在多项音频基准测试中展现出与更大规模模型相媲美甚至更优的性能。尤其在长音频的语音识别场景下,Aero-1-Audio的表现更是令人瞩目。
项目资源:
1.🤗 模型权重:https://huggingface.co/lmms-lab/Aero-1-Audio
2.🔧 在线试玩:https://huggingface.co/spaces/lmms-lab/Aero-1-Audio-Demo
3.📚 使用指南:https://www.lmms-lab.com/posts/lmms-lab-docs/aero_audio/
ASR与音频理解能力全面评估
在自动语音识别(ASR)任务上,Aero-1-Audio在AMI、LibriSpeech和SPGISpeech等数据集上取得了最低的词错误率(WER)分数。在多个音频理解基准测试中,该模型同样表现出色,尤其是在音频分析、音频指令理解以及音频场景理解等方面。
具体而言,Aero-1-Audio在AMI数据集上的WER错误率为10.53,而其他模型的WER错误率都超过了11。Aero-1-Audio在LibriSpeech Clean上的WER仅为1.49,在SPGISpeech上的WER为1.97,这一表现超过了多款商用ASR服务,如ElevenLabs/Scribe、REV.AI/Fusion等,同时也优于经典的OpenAI Whisper large v3模型。
详细的评测结果如下图所示:
长音频处理能力的突破
Aero-1-Audio最引人注目的能力是其处理长音频的卓越表现。目前市场上大多数音频模型处理长音频的常见方法是将音频分割成较小的片段,然后分别进行处理。然而,随着大语言模型的发展,长上下文理解变得越来越重要。
LMMs-Lab团队认为,一个模型能够连续处理长音频序列的能力对于有效的音频理解至关重要,应被视为关键能力。在未分块的LibriSpeech数据集评估中,Aero-1-Audio展现出了明显优势:
在处理长音频时,其他模型的性能都有明显下降,而Aero-1-Audio的性能下降最小,展示了其处理长音频的鲁棒性。
在一个12分钟长视频的ASR测试中,Qwen-Omni在处理长片段时只能识别部分内容,Phi-4-Multimodal则会忽略指令而生成整体摘要,而Aero-1-Audio能够准确生成完整的转录结果。
高效训练,性能优越
Aero-1-Audio的一大亮点在于其高效的训练方式。研究团队仅使用了16块H100 GPU,在一天内完成了模型训练,所用训练数据量约为5万小时的音频数据。这一训练规模远小于当前主流音频大模型的训练数据集,如Qwen-Omni和Phi-4等模型的训练数据量是Aero-1-Audio的100倍以上。
LMMs-Lab的这一成果证明,高质量、经过精心筛选的数据集能够实现样本高效的模型训练。团队从20多个公开可用的数据集中构建了约50亿token的训练集,对应约5万小时的音频数据。尽管数据规模较小,但通过优化的训练方法,Aero-1-Audio在多项基准测试中均取得了令人印象深刻的成绩。
创新训练技术
Aero-1-Audio的成功离不开团队采用的创新训练技术:
1.动态批处理大小:基于估计的token长度动态调整每个设备的批处理大小,避免了固定批处理大小带来的计算资源浪费。
2.序列打包:为音频编码器和语言模型实现了序列打包,实现更大的批处理大小和更快的训练速度。这一操作与Liger内核融合,进一步提高了吞吐量并降低了内存使用。
通过这些优化,模型的平均MFU(Model FLOP Utilization)从0.03提升到约0.34,训练效率得到了显著提高。
敬请体验
https://huggingface.co/spaces/lmms-lab/Aero-1-Audio-Demo
结语
作为一款轻量级但功能强大的音频模型,Aero-1-Audio在参数效率和性能之间实现了出色的平衡。特别是在长音频处理方面的突出表现,为未来音频模型的发展提供了新的思路。LMMs-Lab团队的这一工作证明,通过高质量的数据和创新的训练方法,即使是小参数模型也能在复杂的音频任务中取得卓越的性能。
随着音频AI技术的快速发展,像Aero-1-Audio这样的高效模型将在语音识别、音频理解等领域发挥越来越重要的作用,为各种应用场景提供可靠的技术支持。
团队介绍:
LMMs-Lab 是一个非盈利、研究导向的组织,汇聚了众多充满激情的研究人员,致力于发展多模态智能。通过前沿研究、开源贡献及广泛可及的模型训练推动多模态智能的进步。代表工作包括LMMs-Eval,LLaVA-OneVision,LongVA,Multimodal-SAE,EgoLife等。
更多信息参考 https://www.lmms-lab.com/about/