音频基础模型LTU（Listen, Think, and Understand）

最新推荐文章于 2025-04-30 14:31:23 发布

科学禅道

最新推荐文章于 2025-04-30 14:31:23 发布

阅读量1.1k

点赞数 21

分类专栏：语音大模型文章标签：音视频人工智能深度学习

本文链接：https://blog.csdn.net/xw555666/article/details/139321067

版权

语音大模型专栏收录该内容

6 篇文章

订阅专栏

本文探讨一个新型的音频基础模型LTU（Listen, Think, and Understand）的开发，该模型旨在同时具备音频感知和推理能力。这种模型在现有音频模型和大语言模型的基础上进行了融合与创新。

1.背景和动机

人类不仅能够感知和分类声音，还能理解声音背后的含义，并根据这些信息做出判断和行动。这种能力目前的人工智能系统还不具备。现有的音频模型大多只能将音频输入映射到预定义的离散声标签集合，而缺乏对声音细节的深入理解和推理能力。另一方面，现代的大型语言模型（LLMs）虽然在推理能力上表现出色，但缺乏音频感知能力。因此，提出一个问题：能否构建一个同时具备音频感知和推理能力的模型？

2.LTU模型架构

LTU模型通过将高性能的音频感知模型（如AST）与开源的大型语言模型（如LLaMA）结合在一起，实现了音频的感知、推理和理解。具体来说，LTU框架整合了以下组件：

音频编码器：使用了Audio Spectrogram Transformer（AST）作为音频编码器，AST预训练采用了CAV-MAE目标，并在AudioSet-2M上进行了微调。音频输入被转换为log Mel滤波器组特征，然后分割成小块输入到AST中，生成768维的音频嵌入。
LLaMA大语言模型：使用了LLaMA-7B模型，并在指令跟随任务上进行了训练。LLaMA模型预训练于自然语言和编程语言语料库。
低秩适配器（LoRA）：在LTU训练过程中，采用了LoRA技术来添加一组可学习的权重，避免了大规模参数的重新训练，提高了训练效率和模型的泛化能力。

3.数据集OpenAQA-5M

由于现有数据集无法满足LTU的训练需求，作者创建了一个新的音频问答数据集OpenAQA-5M，包含190万个闭合式问答对和370万个开放式问答对。数据集整合了多个主流音频数据集，并通过GPT辅助生成多样化的问题和答案对。

4.训练方法

冻结音频编码器：在训练过程中，AST模型的参数被冻结，仅训练附加的线性层和LoRA权重。
多任务学习：采用多任务学习方法，同时进行音频分类、描述和问答任务的训练。
损失函数：使用交叉熵损失函数进行分类任务的训练，对于问答任务，采用语言模型的标准损失函数进行优化。

5. 实验和结果

在音频分类任务上，LTU超越了现有的音频文本模型CLAP，在8个基准测试上平均相对提升23.6%。在音频描述任务上，LTU的表现与当前最先进的专用模型相当。更重要的是，LTU展示了现有音频模型所不具备的音频推理和理解能力，可以对音频进行开放式问题回答，并在多个任务上展示出色的性能。

6. 创新点

多模态融合：首次将高性能的音频感知模型（AST）与大语言模型（LLaMA）结合在一起，实现音频感知与语言推理的深度融合。
低秩适配器：通过LoRA技术，避免了大规模参数的重新训练，提高了训练效率和模型的泛化能力。
新型数据集：创建了OpenAQA-5M数据集，包含大量多样化的音频问答对，支持模型的多任务学习和评估。

结论

本文提出的LTU模型是第一个专注于一般音频理解的多模态大语言模型，展示了其在音频感知、推理和理解上的卓越能力。这一研究将推动未来AI系统在处理和理解复杂音频信号方面的进步，为实现更智能的人工听觉系统奠定了基础。

LTU模型是一个创新性的多模态大模型，通过结合音频感知和语言推理能力，展示了在音频分类、描述和问答任务上的卓越表现。其独特的架构设计、训练方法和数据集支持，推动了AI系统在处理和理解复杂音频信号方面的进步。通过公开代码和数据，LTU模型为研究人员提供了一个强大的工具，促进了音频理解领域的进一步研究和应用。