语言模型（二）评估和类别

最新推荐文章于 2024-03-25 22:57:18 发布

xmdxcsj

最新推荐文章于 2024-03-25 22:57:18 发布

阅读量8k

点赞数

分类专栏：语言模型文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xmdxcsj/article/details/50051579

版权

语言模型专栏收录该内容

7 篇文章 6 订阅

订阅专栏

一、Evaluation

1、熵 entropy

l 熵（entropy）又称自信息，self-information

描述一个随机变量的不确定性的数量，熵越大，不确定性越大，正确估计其值的可能性越小。越不确定的随机变量越需要大的信息量以确定其值。

p(x)表示x的分布概率

l 相对熵（relativeentropy）又称KL距离，Kullback-Leibler divergence

衡量相同事件空间里两个概率分布相对差距的测度，当p=q的时候，相对熵为0，当p和q差距变大时，交叉熵也变大。

p(x)和q(x)代表x的两种概率分布

l 交叉熵（crossentropy）

衡量估计模型和真实概率分布之间的差异

定义语言L=(Xi)~p(x)与其模型q的交叉熵为：

表示L的语句(应该表示一句话)，q(x)表示估计模型，由于无法获取真实模型的概率，需要作出一个假设：假定L是稳态遍历的随机过程，即当n无穷大的时候，所有句子的概率和为1。

2、困惑度perplexity

相比如交叉熵的优势在于：

交叉熵的值在6.6位和7.64位之间，对应的ppl在100到200之间，ppl值更容易记。

交叉熵下降2%，对应于Ppl值10%的提升，描述同样的提升，ppl的数值更漂亮。

最重要的一点是，ppl更容易计算，最小的ppl值意味着训练的模型最接近真实模型。

劣势在于：

Ppl适合直接比较两个模型，交叉熵适合描述一个模型的提升。在描述模型的提升的时候，通常使用相比于基线降低的相对百分比，如下图：

3、字错误率 worderror rate

S表示替换个数，D表示删除个数，I表示插入个数，N表示reference中字的个数。

WER通常用在语音识别结果的评估上面，有标准答案，适合比较，缺点就是过于死板，没有同义词的容错机制。

适合用于同一个任务的不同技术比较，不适合在不同系统不同技术之间的对比。

二、N-gram model

影响n-gram模型性能最重要的两点是阶数和平滑。其中KN平滑算法性能最佳。

n-gram最大的优势在于速度和可靠性，计算简单。

局限性有以下几点：

跨领域的脆弱性——不同领域的语言使用规律不同

独立性假设的无效性——n-gram假设当前词只和前n-1个词有关

语言模型规模——随着阶数的增加，n-gram会呈指数型增长，所以无法使用高阶数的语言模型。基于神经网络的LM可以解决该问题。

语言模型面临两个问题如下：

1、高阶问题

THE SKY ABOVE OUR HEADS IS BLUE

如果要刻画BLUE和SKY之间的联系，需要6gram的语言模型，将导致语言模型过大。

2、相似词问题

PARTY WILL BE ON <DAY OF WEEK>

由于训练语料的问题，可能导致Friday的概率明显高于Monday。

三、其他语言模型

在文本中刚刚出现的一些词在后面的句子中再次出现的可能性较大。通过原始n-gram的概率和cache的n-gram概率的线性插值，获得最终的概率。

优势在于可以降低PPL值，劣势在于PPL值降低的同时WER会升高，原因在于识别结果错误的时候会形成错误的反馈。

2、 Class based LM

当训练数据量小时候，为了解决数据稀疏，可以引入classes，然后根据classes训练gram。

该类语言模型的难点在于高的计算复杂度和如何构造class。

3、 Structured LM

在一个句子中的相关词，可能没有出现在临近的位置。Structured LM将句子看做一种树结构，叶子代表词，节点代表连接符号。

4、 Decision Trees and RandomForestLM

使用决策树通过问问题的方式构建LM，但是很难找到好的决策树。计算复杂度较高，在某种程度上面类似于class based LM。

5、 Maximum Entropy LM

将来自不同信息源的语言模型进行结合（类似于插值），获得更好的语言模型。

6、 Neural Network LM

Frederick Jelinek: "Every time I _re alinguist out of my group, the accuracy goes up."

7、 NNLM

训练trick：

每次训练句子随机化，可以减少训练的epoch。

学习率，当提升明显的时候，学习率保持不变，当没有明显提升的时候，学习率减半。

权重矩阵初始化为均值为0、方差为0.1的随机数分布。

参考文献：

《statistic language models based on neural networks》

http://www.fit.vutbr.cz/~imikolov/rnnlm/thesis.pdf

《统计自然语言处理》宗成庆

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
语言模型（二）评估和类别

一、Evaluation1、熵 entropyl 熵（entropy）又称自信息，self-information描述一个随机变量的不确定性的数量，熵越大，不确定性越大，正确估计其值的可能性越小。越不确定的随机变量越需要大的信息量以确定其值。 p(x)表示x的分布概率l 相对熵（relativeentr
复制链接

扫一扫

专栏目录

xmdxcsj CSDN认证博客专家 CSDN认证企业博客

码龄15年

132: 原创

9万+: 周排名

147万+: 总排名

91万+: 访问

: 等级

8538: 积分

817: 粉丝

311: 获赞

118: 评论

913: 收藏

私信

关注

热门文章

分类专栏

python 2篇
工具 7篇
sphinx 3篇
linux相关 3篇
机器学习 10篇
杂谈 3篇
htk 8篇
android 2篇
语音识别 10篇
mapreduce
神经网络 21篇
torch 8篇
gpu 3篇
语言模型 7篇
theano 1篇
audio
kaldi 15篇
声学模型 20篇
c/c++ 2篇
线性代数库 4篇
语音合成 5篇

最新评论

自监督预训练（三）wav2vec 2.0原理剖析
wust不吃洋葱: 请问feature encoder最后两层cnn的输出为什么不是(x-80)/160和(x-80)/320呢？
CTC学习笔记（一）简介
凯尔哥: 我真的是没搞明白，为什么这篇博客会有这么高的阅读量
CTC学习笔记（四）解码-WFST
魔法学徒q: 大佬您好，因为看您分享过几篇语音识别中使用wfst的论文，想到您应该对wfst比较了解。目前我用wenet做训练识别一个官方以外的数据集时，我是使用该数据集语料库和librispeech的lexicon做的lm解码，但是我发现解码结果是把所有音频都识别成了一个单词yeah。请问我是需要重新构建lexicon，还是可能其他地方出错了呢？
CTC学习笔记（二）训练和公式推导
treeswolf: 这篇博客，最后导softmax前的输出的推导是最清楚的了，其它篇都没有，泛泛而谈。
自监督预训练（二）语音部分
小方abc: 工作了还有时间看这么多论文吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。