2017年语言模型用于改善语音识别的论文创新点总结

最新推荐文章于 2024-07-04 00:17:08 发布

yang_daxia

最新推荐文章于 2024-07-04 00:17:08 发布

阅读量1.8k

点赞数 3

分类专栏：语音识别语言模型文章标签：语音模型语音识别创新点

本文链接：https://blog.csdn.net/yang_daxia/article/details/84722469

版权

语音识别同时被 2 个专栏收录

9 篇文章 4 订阅

订阅专栏

语言模型

6 篇文章 0 订阅

订阅专栏

2017_ICASSP_ACTIVE LEARNING FOR LOW-RESOURCE SPEECH RECOGNITION- IMPACT OF SELECTION SIZE AND LANGUAGE MODELING DATA

对于低资源的语音识别，作者研究了选择部分大小以及语言模型数据大小的影响。模型结构为声学模型，发音模型和语言模型。语言模型的数据越多，识别率越好。

创新点并不高。启示：如建立大数据的方言语言模型。

2017_ICASSP_EXPLOITING DIFFERENT WORD CLUSTERINGS FOR CLASS-BASED RNN LANGUAGE MODELING IN SPEECH RECOGNITION

本文通过变换不同的词聚类方法以及不同的词向量表示，然后采用贪心反向(greedy backward model)模型, 选择取不同的语言模型进行组合。组合的模型在WSJ语料库上改善了困惑度以及词错误率。

创新点在于：通过改变词聚类的方式组合语言模型。

2017_Interspeech_Investigating Bidirectional Recurrent Neural Network Language Models for Speech Recognition

本文研究了应用于语音识别的双向RNNLM，提出了一种数据平滑方法。作者在新闻播报语料库BN，会议转录语料库AMI以及低资源语料库Babel data进行了测试，发现该数据平滑方法应用在双向RNNLM中，改善了语音识别的结果。

创新点：双向语言模型以及一种数据平滑方法

2017_ASRU_Lattice rescoring strategies for long short term memory language model in speech recognition

RNNLM相对于n-元语言模型表现更好，但是计算代价太高。研究人员提出了lattice rescore方法用于集成在语音识别中。作者比较了目前存在的多种lattice rescore方法，并且提出来一些变体应用于youtube语音识别，发现相对于H元模型，提高了8%的词错误率。

创新点：提出了一种基于弧束搜索lattice rescoring算法

2017_Interspeech_Use of Global and Acoustic Features Associated with Contextual Factors to Adapt Language Models for Spontaneous Speech Recognition

作者提出使用语音中的语言特征来自适应语言模型。当我们和别人谈论时，在不同的语境下我们会使用不同的词汇以及说话风格。这表明可以通过语境因素提高语音识别的准确性。作者试图在全局的声学特征中找到与语境有关的内容，然后将其集成到RNN语言模型中。作者使用日本的口语语料库，检测了i-向量和openSMILE与语境的关系。结果表明，在情感类语音识别中，困惑度相对降低了16%, 词错误率相对降低了2.1%.

创新点：在语言模型中加入语境影响。

2018年以及2015-10161年也在本人的博客语言模型分类中。可自行查看