语言模型srilm（二） prune剪枝

最新推荐文章于 2024-07-09 09:59:12 发布

xmdxcsj

最新推荐文章于 2024-07-09 09:59:12 发布

阅读量8.9k

点赞数 2

分类专栏：语言模型文章标签：语言模型

语言模型专栏收录该内容

7 篇文章 6 订阅

订阅专栏

为什么引入剪枝

传统的N-gram backoff模型，提升性能的两条主要路径是增加阶数和增加语料，两者带来的共同副作用是增加了模型的大小，进而增加了语音识别解码器的内存占用。为了减少模型的大小，同时保证性能最大化，引入了prune。
为了实现剪枝选取的准则需要满足以下三个条件：

soundness
The criterion should optimize some wellunderstood information-theoretic measure of language
model quality.
efficiency
高效、快速
self-containedness
从实用性角度考虑，只有当前的语言模型可用，没有其他多余的信息可用

srilm采用了基于相对熵的剪枝方法（N-gram pruning based on relative entropy）。

基于相对熵的剪枝

剪枝的主要目的是为了删除已有ngram，同时保证未删除的ngram不变，还需要重新计算回退概率。
那么怎么样衡量剪枝以后语言模型性能的改变呢？
一个想法就是去最小化剪枝前后两个模型之间概率分布的距离。自然的，我们会选择相对熵或者KL距离，定义参考链接:

D (p | | p') = - \sum w i, h j p (w i, h j) [l o g p' (w i | h j) - l o g p (w i | h j)]

$D(p||p')=-\sum_{w_i,h_j}p(w_i,h_j)[logp'(w_i|h_j)-logp(w_i|h_j)]$
其中

p $p$ 表示裁剪前语言模型的概率，

p′ $p'$ 表示裁剪后的模型。
我们不可能遍历所有需要裁剪的ngram的集合（指数型的复杂度），从可操作性考虑，这里需要假设所以ngram对相对熵的影响都是独立的，有了这个假设，我们就可以计算删除每一条ngram对应的相对熵，然后按照大小进行排序，删除那些相对熵最小（剪掉以后对原语言模型影响最小）的ngram。
另外一个想法就是根据模型裁剪前后ppl值的相对变化来衡量裁剪对模型的影响。
原始模型的ppl值：

P P L = e - \sum h, w p (h, w) l o g p (w | h)

$PPL=e^{-\sum_{h,w}p(h,w)logp(w|h)}$
裁剪后模型的ppl值：

P P L' = e - \sum h, w p (h, w) l o g p' (w | h)

$PPL'=e^{-\sum_{h,w}p(h,w)logp'(w|h)}$
所以困惑度的相对变化可以表示为：

P P L ' - P P L P P L = e D (p | | p') - 1

$\frac{PPL'-PPL}{PPL}=e^{D(p||p')}-1$

所以，裁剪语言模型的流程如下：
1. 给定一个困惑度相对变化的门限threshold
2. 计算删除单独一条ngram，模型困惑度的相对变化
3. 挑选出那些低于门限值的ngram，删除，然后重新计算回退权重

基于相对熵剪枝的计算方法

如果删除一条ngram(h,w)，h表示历史词，w表示当前词，h’表示历史词去掉第一个词，那么将会带来两方面的影响：

h的回退概率 $\alpha(h)$ ，将变为 $\alpha'(h)$ ；与此同时，所有历史是h对应的回退概率将会改变，统一将这些ngram表示为 $BO(w_i,h)$
$p(w|h)$ 将变为 $p'(w|h)=\alpha'(h)p(w|h')$

对于历史词不是h的所有ngram，概率值不变，所以这里只需要考虑：
1. 历史词 $h_i$ ：
$h$
2. 当前词 $w_i$
一个是 $w$ ；另外一个是涉及回退概率h对应的w（ $BO(w_i,h)$ ）
所以相对熵可以写成：

D (p | | p') = - \sum w i, h j p (w i, h j) [l o g p' (w i | h j) - l o g p (w i | h j)]

$D(p||p')=-\sum_{w_i,h_j}p(w_i,h_j)[logp'(w_i|h_j)-logp(w_i|h_j)]$

= - p (w, h) [l o g p' (w | h) - l o g p (w | h)] - \sum w i \in B O (w i, h) p (w i, h) [l o g p' (w i | h) - l o g p (w i | h)]

$=-p(w,h)[logp'(w|h)-logp(w|h)]-\sum_{w_i\in BO(w_i,h)}p(w_i,h)[logp'(w_i|h)-logp(w_i|h)]$

= - p (h) {p (w | h) [l o g p' (w | h) - l o g p (w | h)] - p (w i | h) \sum w i \in B O (w i, h) p (w i, h) [l o g p' (w i | h) - l o g p (w i | h)]}

$=-p(h)\{p(w|h)[logp'(w|h)-logp(w|h)]-p(w_i|h)\sum_{w_i\in BO(w_i,h)}p(w_i,h)[logp'(w_i|h)-logp(w_i|h)]\}$
计算上式的后面一项，需要遍历词典，对于词典很大的语言模型，计算复杂度较高。可以考虑回退概率：