NLP-统计分词综述

大虾飞哥哥

已于 2022-03-03 15:45:00 修改

阅读量1.3k

点赞数

分类专栏： NLP 文章标签： python 机器学习人工智能

于 2022-03-02 15:57:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xu624735206/article/details/123197164

版权

NLP 专栏收录该内容

24 篇文章

订阅专栏

本文介绍了统计分词的基本原理，强调了词频和上下文在分词中的作用。接着讲解了语言模型的概念，探讨了如何计算句子概率及其存在的问题。随后，详细阐述了n元模型，包括马尔可夫假设、n-gram模型的缺陷及解决方法。最后，提到了神经网络语言模型NNLM在克服n元模型局限性方面的进展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NLP-统计分词

一、统计分词综述
- 1.概念
- 2.步骤
二、语言模型
- 1.概念
- 2.语言模型中的概率产生
三、n元模型
四、神经网络模型-NNLM

一、统计分词综述

1.概念

基于统计的分词算法的主要核心是词是稳定的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计，计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

2.步骤

1.构建语言模型

2.对句子进行单词划分，划分结果运用统计方法计算概率，获取概率最大的分词方式。(统计方法如隐马尔可夫模型HMM,条件随机场CRF)

二、语言模型

1.概念

一个语言模型可以简单理解为一个句子 s 在所有句子中出现的概率分布 P(s)。举个简单的例子：

如果一个人所说的话语中每100个句子里大约有一句是Okay，则可以认为p(Okay) ≈ 0.01。而对于句子“An apple ate the chicken”我们可以认为其概率为0，因为几乎没有人会说这样的句子。

2.语言模型中的概率产生

我们先假设 S 表示某一个有意义的句子，S 是由一连串特定顺序排列的词组成，这里n是句子的长度，那么我们怎么获取句子 S 在一个语言模型中的概率?
在这里插入图片描述
它的概率可以表示为：

可是这样的方法存在两个致命的缺陷：

參数空间过大：条件概率P(wn|w1,w2,…,wn-1)的可能性太多，无法估算，不可能有用；
数据稀疏严重：对于非常多词对的组合，在语料库中都没有出现，依据最大似然估计得到的概率将会是0。

三、n元模型

1.马尔可夫假设

数学家马尔可夫针对无法计算上述公式这种情况，提出了一种偷懒且高效的方法：

每当遇到这种情况时，就假设任意一个词 wi 出现的概率只同它前面的词 wi-1 有关，这就是很有名的马尔可夫假设。
基于此思想，n-gram model诞生了。

2.n元模型

n元模型的思想就是：出现在第 i 位上的词 wi 仅与它前面的（n-1）个历史词有关。
通常情况下，n的取值不能太大，实际中， n=3是最常见的情况。n过小，产生的概率不够准确，n过大，计算量太大。

3.缺陷

无法建模更远的关系，语料的不足使得无法训练更高阶的语言模型。
无法建模出词之间的相似度。
训练语料里面有些 n元组没有出现过,其对应的条件概率就是 0,导致计算一整句话的概率为 0。

4.解决方法

解决这个问题有两种常用方法：平滑法和回退法。

四、神经网络模型-NNLM

第一篇提出神经网络语言模型的论文是Bengio大神在2003年发表的《A Neural Probabilistic Language Model》。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大虾飞哥哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。