语音识别思考 1 DNN-HMM的为什么1.1 为什么要用HMM呢?1.2 为什么GMM开始要均值呢?1.3 为什么GMM可以通过EM来更新呢?1.4 GMM到底如何被DNN替换的?1.5 为什么要用WFST?1.6 帧级别的建模如何连续解码?1.7 帧级别的建模如何连续训练? Reference 1 DNN-HMM的为什么 1.1 为什么要用HMM呢? 1.2 为什么GMM开始要均值呢? 1.3 为什么GMM可以通过EM来更新呢? 1.4 GMM到底如何被DNN替换的? 1.5 为什么要用WFST? 1.6 帧级别的建模如何连续解码? 1.7 帧级别的建模如何连续训练? Reference 这里暂时占坑,后续补充。