语音识别
yang_daxia
这个作者很懒,什么都没留下…
展开
-
语音识别框架
一、语音识别框架传统理论重点研究声学模型,发音字典不用关心,语言模型一般用n-gram预处理:1. 首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作一般称为VAD。 2. 声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。特征提取:主要算法有线性预测倒谱系数(LPCC)和Mel 倒谱系数(MFCC)...原创 2018-11-07 10:54:01 · 11839 阅读 · 0 评论 -
语音识别会议级别
人工智能的会议没有专注于语音领域的,语音算是ai的一个实际应用方向吧,所以也能投ai的会议和期刊 列一下自然语言处理(NLP)这个小方向的: 会议(C): EMNLP (Empirical Methods in Natural Language Processing) AEACL (Annual Conference of the European...原创 2018-11-07 11:15:58 · 15135 阅读 · 3 评论 -
语音识别的发展趋势及主要模型
以前的语音识别系统基于高斯混合模型(Gaussian Mixture Model, GMM)和隐马尔可夫模型(Hidden Markov Model),即 GMM-HMM 模型。发展到端对端目前的端到端系统基本上基于两个框架,一个是 CTC(Connectionist Temporal Classification)框架,一个是基于注意力机制的 seq2seq 框架。CTC典型...原创 2018-11-22 22:40:46 · 5061 阅读 · 1 评论 -
2018年语言模型用于改善语音识别的论文创新点总结
语音识别框架即声学模型加语言模型。 2018-icassp-ACCELERATING RECURRENT NEURAL NETWORK LANGUAGE MODEL BASED ONLINE SPEECH RECOGNITION SYSTEM提出一个用于在线语音识别的加速神经网络语言模型。首先介绍了一种具有过去历史信息的缓存语言模型,然后介绍了神经网络语言模型在CPU-GPU上的混合部...原创 2018-11-29 17:03:55 · 2344 阅读 · 1 评论 -
2017年语言模型用于改善语音识别的论文创新点总结
2017_ICASSP_ACTIVE LEARNING FOR LOW-RESOURCE SPEECH RECOGNITION- IMPACT OF SELECTION SIZE AND LANGUAGE MODELING DATA对于低资源的语音识别,作者研究了选择部分大小以及语言模型数据大小的影响。模型结构为声学模型,发音模型和语言模型。语言模型的数据越多,识别率越好。创新点并不高。启...原创 2018-12-02 17:32:44 · 1869 阅读 · 1 评论 -
最新语音识别词错误率WER汇总
目前语音识别的词错误率(WER)不同算法,不同语料是多少?本文结果来源于github一个大神的汇总。包括LibriSpeech语料库,WSJ, Rich Transcriptions,Hub5'00 Evaluation (Switchboard / CallHome),Fisher (RT03S FSH)等。详情可以去原地址查看。原文还包含AI各个方向应用的汇总综述等等。干货很多。原地址...原创 2018-11-30 11:51:36 · 4323 阅读 · 0 评论 -
2015-2016年语言模型用于改善语音识别的论文创新点总结
2016_ICASSP_Minimum word error training of long short-term memory recurrent neural network language models for speech recognition本文描述了在语音识别中的LSTM语言模型最小化词错误的训练。RNNLM一般通过最小化交叉熵训练去估计句子的概率值,这符合最大似然估计准则。...原创 2018-12-03 11:53:20 · 887 阅读 · 1 评论 -
Speech Decoding Using Lattice Rescoring
语音识别可以看成语音的解码过程。为了实现实时语音识别,可以采用lattice rescoring.语音识别框架包括声学模型,词典模型和语言模型。现在也可以通过加权有限状态转换器weighted finite-state transducer(WFST)构建语音识别框架。可以通过单次传输或者多次传输实现语音解码。lattice rescore是一种多次传输解码,先通过一个简单的低级知识进行首次传输解...原创 2018-12-04 10:49:18 · 1078 阅读 · 0 评论 -
Listen, Attend and Spell阅读笔记
摘要 作者展示了一种语音识别神经网络Listen, Attend and Spell。listen为一个金字塔形的RNN encoder网络,将声音信号的filter bank特征作为输入,speller为一个基于attention机制的RNN decoder网络,将文字字符作为输出。本网络不包含发音字典或者语言模型,在Google 语音搜索人物志,获得了14.1%的WER,使用...原创 2018-12-14 16:07:35 · 5484 阅读 · 5 评论