《SoundStorm: Efficient Parallel Audio Generation》速读
一、研究背景
音频生成任务在众多领域具有重要应用价值,如语音合成、音乐创作等。传统音频生成方法多采用自回归模型,这类模型虽能生成高质量音频,但存在明显缺陷:生成过程逐token进行,导致长序列音频生成耗时长、效率低。例如,AudioLM等模型在生成较长音频时,因序列长度增加,计算复杂度呈二次增长,难以满足实时或高效生成需求。
神经音频编解码器的出现为音频生成带来了新思路。它可将音频信号转化为离散token序列,使音频生成转化为序列到序列的建模问题,便于利用强大的Transformer等模型进行处理。但离散表示的token序列存在两种挑战:一是码本大小随表示率增加呈指数增长,受内存限制难以实现;二是token序列增长给自回归模型计算带来巨大压力,尤其是基于注意力的模型,其计算复杂度与序列长度呈二次关系。
二、研究方法
(一)模型架构
SoundStorm以AudioLM的语义token为输入,利用双向注意力和基于置信度的并行解码生成神经音频编解码器的token。其核心是一个基于Conformer的架构,Conformer是卷积增强型的Transformer,能有效处理音频序列数据。
在输入端,SoundStorm将与时间对齐的条件token与SoundStream的帧级token交错,嵌入后求和,使自注意力序列长度仅取决于SoundStream帧数,与RVQ级别数量无关,可处理长达分钟级的音频。输出端使用Q个密集层作为头部,预测目标SoundStream。
(二)训练方法
SoundStorm采用掩码训练方案,输入序列中部分token被掩码,模型需预测这些掩码token。具体过程如下:
-
随机采样时间步长t,此前token不掩码,条件token也永不掩码。
-
采样当前RVQ级别q,按余弦计划采样掩码比p,生成掩码M。
-
掩码当前RVQ级别q中的非提示token及更细RVQ级别中的所有非提示token。
(三)解码策略
解码时,SoundStorm从全部音频token被掩码开始,按从粗到细的RVQ级别顺序采样token。在RVQ级别内,基于置信度分数采样,多次前向传播,逐步填充掩码位置token。与MaskGIT不同的是,SoundStorm在每个RVQ级别的最后一次迭代采用贪婪解码,提升音频质量。
三、实验
(一)实验设置
实验中,SoundStorm依赖产生50帧/秒、具有12个RVQ级别的SoundStream编解码器,每个级别码本大小1024,比特率6000bps。条件信号为AudioLM的语义token,源自w2v-BERT嵌入,经k均值聚类量化得到,速率为25token/秒,复制以匹配SoundStream帧率。
模型采用3.5亿参数的Conformer,含12层、16个注意力头,嵌入大小和模型维度1024,前馈维度4096,卷积核大小5,使用旋转位置嵌入。解码时,第一级RVQ执行16次迭代,后续级别贪婪选择最高概率token。在LibriLight数据集上训练10个周期,采样随机窗口长度在0到30秒之间。
(二)主观评估实验
-
语音可懂度 :通过测量生成音频转录后的词错误率(WER)和字符错误率(CER)评估。在LibriSpeech test-clean数据集上,以真实语义token为条件进行实验,涵盖无提示和有提示两种场景。结果表明,SoundStorm在所有分割段的WER和CER上均优于AudioLM的声学生成阶段。
-
声音保持能力 :提取提示和生成音频的说话人嵌入,计算余弦相似度。SoundStorm在保持说话人身份方面显著优于AudioLM基线。
-
声学一致性漂移 :训练模型评估两短音频片段是否来自同一录音。在LibriSpeech test-clean的“长”分割段上,SoundStorm生成的音频声学一致性分数接近真实样本,而AudioLM随时间推移漂移更明显。在“短”“中”“长”分割段的平均声学一致性分数上,SoundStorm均有更好表现。
-
音频质量 :使用类似DNSMOS的MOS估计器评估生成样本的感知音频质量。据MOS估计器结果,SoundStorm与AudioLM的声学生成器相当,而后者在主观研究中已被证明与真实音频质量相当。
(三)对话合成实验
对话合成是关键应用,要求在多个说话人回合和长时间跨度中保持说话人身份。SoundStorm结合文本到语义token模型,可合成30秒的高质量多轮对话。具体方法是:收集约10万小时对话数据,训练BEST-RQ模型提取语义token;训练文本到语义token的ByT5-large Transformer模型,将文本字节级表示映射到语义token;训练SoundStream编解码器。推理时,以未见说话人的短对话片段为提示,生成文本续写,输入文本到语义模型,输出喂入SoundStorm,同时利用说话人提示。结果表明,该方法能生成包含填充词不流畅现象的高质量自然对话序列,通过在文本中插入转话标记符号可控制说话人回合。合成30秒片段总耗时2秒。
四、关键结论
SoundStorm是一种高效、非自回归的音频生成模型,输入AudioLM的语义token,依赖双向注意力和基于置信度的并行解码生成神经音频编解码器的token。与AudioLM的自回归生成方法相比,SoundStorm在保持音频质量的同时,大幅提高了生成速度,达到两个数量级的提升,且在语音和声学条件一致性方面表现更好。它还能扩展音频生成至更长序列,给定带说话人转话标记的转录和说话人语音短提示,可合成高质量自然对话段。此外,SoundStorm降低了AudioLM的内存和计算要求,使音频生成研究更易被广泛研究社区开展。
五、潜在影响
论文指出,SoundStorm生成的音频样本可能受训练数据中的偏见影响,如口音和声音特征的代表性。同时,模仿声音的能力可能被恶意利用,如绕过生物识别和冒充他人。但经验证,SoundStorm生成的音频仍可被专用分类器检测(准确率达98.5%),遵循了负责任AI原则。未来计划探索音频水印等其他合成语音检测方法,确保技术应用符合规范。