语音识别中半监督与无监督训练

背景

  • 端到端的语音识别需要大量成对的语音-文本数据,以获得更好的performance。然而目前来说成对的数据是相对较少的
  • 相比于有标签的语音文本对,无标签的语音数据更多
  • ASR模型的准确率依赖语言模型的rescoring,而大量的纯文本数据可以用于语言模型的构建

举例来说,LAS[1]的Decoder充当了传统方法的语言模型模块,而这一模型是在大约15 million个对话(audio-text pairs)的数据集(Google Voice Search)上训练的, 而当前最好的语言模型实在大约是在10亿个词或者更多的数据集上训练得到[2],这就是为什么LAS在结合额外的LM后,能获得大约5%的WER缩减[1]。

语言模型的引入帮助到语义信息的建模,可以显著地提升ASR模型的准确率表现。然而,额外语言模型的挂载,也带来了以下的问题。

  1. 额外的rescoring流程, 加大了整个pipeline的时延,无法满足某些识别实时性要求非常高的场景,如同声传译
  2. 参数冗余。对比来说,BERT-Base模型的参数量约为110 million,而GPT-2 的参数量则达到15 亿,虽然一般的ASR模型不会使用到如此巨大的LM,但是额外LM的融合,必将加大语音识别模型整体的参数量
  3. 由于声学模型与语言模型并不是同时训练的,其优化的目标也不一致,所以误差累积不可避免。

综上所述,为了使端到端的ASR模型能获得更好的准确率与性能表现,必须充分利用未标注的数据,包括纯语音与纯文本,在不依赖与额外的语言模型情况下,在模型结构上下功夫,将这一部分先验知识赋予模型本身。

无监督学习

使模型从无标签数据学习到数据特征抽取,表征,预测的能力,侧面达到数据增强的作用。

具体方法举例

1. 知识迁移 + 预训练文本嵌入[3]

利用text-to-intent数据在BERT上微调,预训练一个classifier,随后这个classfier与speech-to-intent模型共享最后一个classfication layer。在这个layer上,迫使声学嵌入匹配更好的文本嵌入。需要说明的是,text-to-intent类型的数据远多于speech-to-intent的数据量。
在这里插入图片描述
虽然原文的目的是训练一个speech-to-intent的模型,与一般的ASR模型有一定区别。但其提供以下几点思想依然值得学习。

  • 是否可以预训练一个LM与ASR在最后几层共享参数,将LM的知识迁移到ASR模型本身。
  • 对照speech-to-intent与text-to-intent的关系,是否可以比对延伸到text-text和speech-text的关系,预训练text-text(类似于机器翻译)分类器,再让ASR来学习其概率分布等知识。
    值得注意的是,图中虚线上部,即text embedding部分仅在训练是需要,在测试阶段可以去除,达到精简模型参数的作用。
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值