语音识别中半监督与无监督训练

本文链接：https://blog.csdn.net/zycodecsdn/article/details/110672029

本文探讨了在语音识别中如何利用无监督和半监督学习方法提高模型性能。无监督学习中，介绍了知识迁移、Mask + Reconstruction + Multi-task以及Wav2Vec方法；半监督学习中，涉及Self-Training、循环一致性和一致性训练。这些技术有助于在缺乏大量有标签数据的情况下，通过未标注数据提升ASR模型的准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

端到端的语音识别需要大量成对的语音-文本数据，以获得更好的performance。然而目前来说成对的数据是相对较少的
相比于有标签的语音文本对，无标签的语音数据更多
ASR模型的准确率依赖语言模型的rescoring，而大量的纯文本数据可以用于语言模型的构建

举例来说，LAS[1]的Decoder充当了传统方法的语言模型模块，而这一模型是在大约15 million个对话（audio-text pairs）的数据集（Google Voice Search）上训练的, 而当前最好的语言模型实在大约是在10亿个词或者更多的数据集上训练得到[2]，这就是为什么LAS在结合额外的LM后，能获得大约5%的WER缩减[1]。

语言模型的引入帮助到语义信息的建模，可以显著地提升ASR模型的准确率表现。然而，额外语言模型的挂载，也带来了以下的问题。

额外的rescoring流程，加大了整个pipeline的时延，无法满足某些识别实时性要求非常高的场景，如同声传译
参数冗余。对比来说，BERT-Base模型的参数量约为110 million，而GPT-2 的参数量则达到15 亿，虽然一般的ASR模型不会使用到如此巨大的LM，但是额外LM的融合，必将加大语音识别模型整体的参数量
由于声学模型与语言模型并不是同时训练的，其优化的目标也不一致，所以误差累积不可避免。

综上所述，为了使端到端的ASR模型能获得更好的准确率与性能表现，必须充分利用未标注的数据，包括纯语音与纯文本，在不依赖与额外的语言模型情况下，在模型结构上下功夫，将这一部分先验知识赋予模型本身。

无监督学习

使模型从无标签数据学习到数据特征抽取，表征，预测的能力，侧面达到数据增强的作用。

具体方法举例

1. 知识迁移 + 预训练文本嵌入[3]

利用text-to-intent数据在BERT上微调，预训练一个classifier，随后这个classfier与speech-to-intent模型共享最后一个classfication layer。在这个layer上，迫使声学嵌入匹配更好的文本嵌入。需要说明的是，text-to-intent类型的数据远多于speech-to-intent的数据量。
在这里插入图片描述
虽然原文的目的是训练一个speech-to-intent的模型，与一般的ASR模型有一定区别。但其提供以下几点思想依然值得学习。

是否可以预训练一个LM与ASR在最后几层共享参数，将LM的知识迁移到ASR模型本身。
对照speech-to-intent与text-to-intent的关系，是否可以比对延伸到text-text和speech-text的关系，预训练text-text（类似于机器翻译）分类器，再让ASR来学习其概率分布等知识。
值得注意的是，图中虚线上部，即text embedding部分仅在训练是需要，在测试阶段可以去除，达到精简模型参数的作用。