【自然语言处理】中文分词技术（二）

艺赛旗RPA

于 2020-01-06 13:42:09 发布

阅读量243

点赞数

分类专栏： RPA RPA教程 python基础文章标签： nlp 艺赛旗 Pyhthon RPA

本文链接：https://blog.csdn.net/weixin_44447687/article/details/103855846

版权

python基础同时被 3 个专栏收录

343 篇文章 3 订阅

订阅专栏

RPA教程

324 篇文章 27 订阅

订阅专栏

RPA

131 篇文章 9 订阅

订阅专栏

艺赛旗 RPA10.0全新首发免费下载点击下载

www.i-search.com.cn/index.html?from=line1

1.3 统计分词
随着大规模语料库的建立，统计机器学习方法的研究和发展，基于统计的中文分词算法渐渐成为主流。

其主要思想是把每个词看作是由词的最小单位的各个字组成的，如果相连的字在不同的文本中出现的词数越多，就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反映成词的可靠度，统计语料中相邻共现的各个字的组合的频度，当组合频度高于某一个临界值时，我们便可认为此字组可能会构成一个词语。

基于统计的分词，一般要做如下两步操作：

建立统计语言模型。
对句子进行单词划分，然后对划分结果进行概率计算，获得概率最大的分词方式。这里就用到了统计学习算法，如隐含马尔可夫（HMM）、条件随机场（CRF）等。
下面针对其中的一些相关技术做简要介绍。

1.3.1 统计语言模型
统计语言模型在信息检索、机器翻译、语音识别中承担着重要的任务。用概率论的专业术语描述如下：

假定 SS 表示某一个有意义的句子，由一连串特定顺序排列的词 ωω1, ωω2, …, ωωnn组成，这里 nn 是句子的长度。现在，我们想知道 SS 在文本中出现的可能性，也就是数学上所说的 SS 的概率 P(S)P(S)。

既然 SS = ωω1, ωω2, ⋯⋯, ωωnn，那么不妨把 P(S)P(S) 展开表示：
P(S)=P(w1,w2,⋯,wn)(1.1)
P(S)=P(w1,w2,⋯,wn)(1.1)

其中 P(w1)P(w1) 表示第一个词 w1w1 出现的概率（更准确的描述是 P(w1|)P(w1|)，即这个词在句子开头条件下的概率）；P(w2|w1)P(w2|w1) 是在已知第一个词的前提下，第二个词出现的概率；以此类推。不难看出，到了词 wnwn，它的出现概率取决于它前面的所有词。

这个公式对应的统计语言模型是二元模型（Bigram Model）。这个模型的假设前提是，句子中的每个词只和前面一个词有关，而和更前面的词就无关了，这似乎太简化了，或者说近似得过头了。确实是这样，读者很容易找到一些例子：某个词和前面第二个词有关，比如说 “美丽的花朵”，花朵其实和美丽有关。因此，更普遍的假设是某个词和前面若干个词有关。

假定文本中的每个词 wiwi 和前面 N−1N−1 个词有关，而与更前面的词无关，这样当前词 wiwi 的概率只取决于前面 N−1N−1 个词 P(wi−N+1,wi−N+2,⋅⋅⋅,wi−1)P(wi−N+1,wi−N+2,···,wi−1)。因此 P(wi|w1,w2,⋅⋅⋅,wi−1)P(wi|w1,w2,···,wi−1) 的计算可简化为：
P(wi|w1,w2,⋅⋅⋅,wi−1)≈P(wi|wi−N+1,wi−N+2,⋅⋅⋅,wi−1)(1.4)
P(wi|w1,w2,···,wi−1)≈P(wi|wi−N+1,wi−N+2,···,wi−1)(1.4)
公式（1.4）的这种假设被称为 N−1N−1 阶马尔可夫假设，对应的语言模型称为 NN 元模型（N-Gram Model）。N=2N=2 的二元模型就是公式（1.3），而 N=1N=1 的一元模型实际上是一个上下文无关的模型，也就是假定当前词出现的概率与前面的词无关，这无疑是完全损失了句中的词序信息，所以一元模型的效果并不理想。而在实际应用中最多的是 N=3N=3 的三元模型，更高阶的模型就很少使用了。

为什么 NN 一般取值都这么小呢？这里面主要有两个原因。首先，NN 元模型的大小（或者说空间复杂度）几乎是 NN 的指数函数，即 O(|V|N)O(|V|N)。

这里 |V||V| 是一种语言词典的词汇量，一般在几万到几十万个。而使用 NN 元模型的速度（或者说时间复杂度）也几乎是一个指数函数，即 O(|V|N−1)O(|V|N−1)。因此，NN 不能很大。当 NN 从 1 到 2，再从 2 到 3 时，模型的效果上升显著。而当模型从 3 到 4 时，效果的提升就不是很显著了，而资源的耗费增加却非常快，所以，除非是不惜资源为了做到极致，很少有人使用四元以上的模型。Google 的罗塞塔翻译系统和语言搜索系统，使用的是四元模型，该模型存储于 500 台以上的 Google 服务器中。

还有一个问题，是否三元或者四元甚至更高阶的模型就能覆盖所有的语言现象呢？答案显然是否定的。因为在自然语言中，上下文之间的相关性可能跨度非常大，甚至可以从一个段落跨到另一个段落。因此，即使模型的阶数再提高，对这种情况也无可奈何，这就是马尔可夫假设的局限性，这时就要采用其他一些长程的依赖性（Long Distance Dependency）来解决这个问题了。

接下来的问题就是如何估计条件概率 P(wi|wi−1)P(wi|wi−1)。根据它的定义：
P(wi|wi−1)=P(wi−1,wi)P(wi−1)(1.5)
P(wi|wi−1)=P(wi−1,wi)P(wi−1)(1.5)

而估计联合概率 P(wi−1,wi)P(wi−1,wi) 和边缘概率 P(wi−1)P(wi−1)，现在变得很简单。因为有了大量机读文本，也就是专业人士讲的语料库（Corpus），只要数一数 wi−1,wiwi−1,wi 这对词在统计的文本中前后相邻出现了多少次 #(wi−1,wi)#(wi−1,wi)，以及 wi−1wi−1 本身在同样的文本中出现了多少次 #(wi−1)#(wi−1)，然后用两个数分别除以语料库的大小 ##，即可得到这些词或者二元组的相对频度：
f(wi−1,wi)=#(wi−1,wi)#(1.6)
f(wi−1,wi)=#(wi−1,wi)#(1.6)

f(wi−1)=#(wi−1)#(1.7)
f(wi−1)=#(wi−1)#(1.7)

根据大数定理，只要统计量足够，相对频度就等于频率，即
P(wi−1,wi)≈#(wi−1,wi)#(1.8)
P(wi−1,wi)≈#(wi−1,wi)#(1.8)

P(wi−1)≈#(wi−1)#(1.9)
P(wi−1)≈#(wi−1)#(1.9)

而 P(wi|wi−1)P(wi|wi−1) 就是这两个数的比值，再考虑到上面的两个概率有相同的分母，可以约掉，因此
P(wi|wi−1)≈#(wi−1,wi)#(wi−1)(1.10)
P(wi|wi−1)≈#(wi−1,wi)#(wi−1)(1.10)

使用语言模型需要知道模型中所有的条件概率，我们称之为模型的参数。通过对语料的统计，得到这些参数的过程称作模型的训练。比如对于二元模型（1.3），就是拿两个数字，(wi−1,wi)(wi−1,wi) 在语料中同现的次数 #(wi−1,wi)#(wi−1,wi) 和 (wi−1)(wi−1) 在语料中单独出现的次数 #(wi−1)#(wi−1)，计算一下比值即可。但问题是，如果同现的次数 #(wi−1,wi)=0#(wi−1,wi)=0 怎么办，是否意味着条件概率 P(wi|wi−1)=0P(wi|wi−1)=0？反过来如果 #(wi−1,wi)#(wi−1,wi) 和 #(wi−1)#(wi−1) 都只出现了一次，是否敢得出 P(wi|wi−1)=1P(wi|wi−1)=1 这样非常绝对的结论？这就涉及到统计的可靠性问题了。

在数理统计中，我们之所以敢于用对采样数据的观察结果来预测概率，是因为有大数定理（Law of Large Numbers）在背后做支持，它的要求是有足够的观测值。