2017年语言模型用于改善语音识别的论文创新点总结

2017_ICASSP_ACTIVE LEARNING FOR LOW-RESOURCE SPEECH RECOGNITION- IMPACT OF SELECTION SIZE AND LANGUAGE MODELING DATA

对于低资源的语音识别,作者研究了选择部分大小以及语言模型数据大小的影响。模型结构为声学模型,发音模型和语言模型。语言模型的数据越多,识别率越好。

创新点并不高。启示:如建立大数据的方言语言模型。

 

2017_ICASSP_EXPLOITING DIFFERENT WORD CLUSTERINGS FOR CLASS-BASED RNN LANGUAGE MODELING IN SPEECH RECOGNITION

本文通过变换不同的词聚类方法以及不同的词向量表示,然后采用贪心反向(greedy backward model)模型, 选择取不同的语言模型进行组合。组合的模型在WSJ语料库上改善了困惑度以及词错误率。

创新点在于:通过改变词聚类的方式组合语言模型。

 

2017_Interspeech_Investigating Bidirectional Recurrent Neural Network Language Models for Speech Recognition

本文研究了应用于语音识别的双向RNNLM,提出了一种数据平滑方法。作者在新闻播报语料库BN,会议转录语料库AMI以及低资源语料库Babel data进行了测试,发现该数据平滑方法应用在双向RNNLM中,改善了语音识别的结果。

创新点:双向语言模型以及一种数据平滑方法

 

2017_ASRU_Lattice rescoring strategies for long short term memory language model in speech recognition

RNNLM相对于n-元语言模型表现更好,但是计算代价太高。研究人员提出了lattice rescore方法用于集成在语音识别中。作者比较了目前存在的多种lattice rescore方法,并且提出来一些变体应用于youtube语音识别,发现相对于H元模型,提高了8%的词错误率。

创新点:提出了一种基于弧束搜索lattice rescoring算法

 

2017_Interspeech_Use of Global and Acoustic Features Associated with Contextual Factors to Adapt Language Models for Spontaneous Speech Recognition

作者提出使用语音中的语言特征来自适应语言模型。当我们和别人谈论时,在不同的语境下我们会使用不同的词汇以及说话风格。这表明可以通过语境因素提高语音识别的准确性。作者试图在全局的声学特征中找到与语境有关的内容,然后将其集成到RNN语言模型中。作者使用日本的口语语料库,检测了i-向量和openSMILE与语境的关系。结果表明,在情感类语音识别中,困惑度相对降低了16%, 词错误率相对降低了2.1%.

创新点:在语言模型中加入语境影响。

2018年以及2015-10161年也在本人的博客语言模型分类中。可自行查看

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yang_daxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值