语言模型
xmdxcsj
毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。
展开
-
语言模型(一) 工具和使用简介
一、常用工具1. Kenlm https://kheafield.com/code/kenlm/C++版本,最大特点是速度快、占用内存少2. Srilm http://www.speech.sri.com/projects/srilm/SRI(Standford ResearchInstitute)开发,使用比较广泛,c++版本3. IRSTL原创 2015-08-30 21:13:58 · 7008 阅读 · 0 评论 -
语言模型(二) 评估和类别
一、Evaluation1、 熵 entropyl 熵(entropy)又称自信息,self-information描述一个随机变量的不确定性的数量,熵越大,不确定性越大,正确估计其值的可能性越小。越不确定的随机变量越需要大的信息量以确定其值。 p(x)表示x的分布概率l 相对熵(relativeentr原创 2015-11-26 09:26:21 · 8081 阅读 · 0 评论 -
语言模型srilm(二) prune剪枝
为什么引入剪枝传统的N-gram backoff模型,提升性能的两条主要路径是增加阶数和增加语料,两者带来的共同副作用是增加了模型的大小,进而增加了语音识别解码器的内存占用。为了减少模型的大小,同时保证性能最大化,引入了prune。 为了实现剪枝选取的准则需要满足以下三个条件:soundness The criterion should optimize some wellunderstood翻译 2015-12-15 22:29:58 · 8997 阅读 · 1 评论 -
语言模型(三) RNN
概况feedforward NN based LM单词使用1-of-V表示,其中V表示词典的大小,单词对应的位置为1,其他为0 输入:历史词序列,输出是当前词。比如词典大小为50k,使用5-gram,那么输入维度为50k*4 projection:将50k降维到30,即为30*4 隐层:100-300 输出:大小为V,代表概率值P(wt|wt−4,wt−3,wt−2,wt−1)P(w_t|w翻译 2015-11-29 18:09:46 · 2569 阅读 · 1 评论 -
语言模型srilm(一) 基本用法
一、基本训练基本参数##功能#读取分词后的text文件或者count文件,然后用来输出最后汇总的count文件或者语言模型##参数#输入文本:# -read 读取count文件# -text 读取分词后的文本文件#词典文件:# -vocab 限制text和count文件的单词,没有出现在词典的单词替换为<unk>;如果没有,所有的单词将会被自动加入词典# -limit-voc原创 2015-12-18 18:30:01 · 17134 阅读 · 1 评论 -
语言模型(四) RNNLM
coming原创 2015-11-27 21:25:37 · 4240 阅读 · 0 评论 -
语言模型srilm(三) 折扣平滑算法
一、概况在训练语言模型的时候有几个常用词:折扣(discounting)、平滑(smoothing)、插值(interpolate),下面用一个例子简单介绍一下。 我们的训练语料里面有“a、b、c、d”五个词,其中以a、b开头的3gram有以下数据: a b c 5次 a b d 10次 那么当我们需要计算p(c|ab)的概率的时候,可以使用最大似然估计 p(c|ab)=c(abc)c(a原创 2015-12-21 18:06:01 · 8874 阅读 · 1 评论