一种没有语料字典的分词方法

最新推荐文章于 2020-02-05 13:53:49 发布

ygrx

最新推荐文章于 2020-02-05 13:53:49 发布

阅读量7.7k

点赞数 3

分类专栏：技术算法文章标签：算法 python 文字处理大数据

本文链接：https://blog.csdn.net/ygrx/article/details/8926274

版权

前几天在网上闲逛，看到一篇美文，说的是怎么在没有语料库的情况下从文本中提取中文词汇，理论部分讲得比较多，但都还是很浅显易懂的，其中涉及一部分信息论的理论，其实只要大学开过信息论这门课的话，看起来还是挺简单的。

信息论我忘得差不多了，但是其中主要的内容还记得，信息论最主要的就是信息其实是可以度量的，一个事件包含的信息和它发生的概率成反比，简单的说，同样一个事件，产生A结果的概率为Pa，产生B结果的概率为Pb，如果Pa大于Pb，那A所包含的信息量就比B要大。

打个简单的比喻，比如中国队和西班牙队踢足球比赛，大家都知道，西班牙队赢的概率大概是99.9999%，中国队赢的概率大概是0.0001%，假如最后的结果是中国队赢了（靠实力）的话，那这个事件（中国队赢了西班牙）就是个信息量非常巨大的事件，我相信各大报纸的头条都会报道，反而如果西班牙赢了，估计没有报纸会报道这个消息，这就是信息论的核心，也就是信息熵。

扯远了，上面只是说说我对信息论的理解，在分词技术上，目前的分词技术基本上都是基于字典的，就是看文章中有没有字典含有的词语，如果有，就把这个当成一个词来分，这样也衍生了很多分词技术，大家有兴趣可以自己去查一查。

如果我们没有词典，需要分词就比较麻烦了，假设我们最大的词长度设定为5，能想到的办法就是，从第一个字开始，把文本中所有连在一起的两个字，三个字，四个字，五个字的片段找出来，然后看这些片段在文本中出现的频率，频率高的就当成一个词汇，这样确实能分出词来，但是这样同样也分出了一些不是词的词汇，比如上面的文章中，“的话”这个词就出现的相对比较多，显然，这不是一个词。

在这种基础上怎么把类似“的话”这样的词去掉就是我们要做的工作了。这涉及到两个重要的部分，也是那篇美文提到的两个部分。

第一，怎么去掉类似于“的中国”和“中国队”这样的差异，这三个词可能出现的频率都差不多，甚至“的中国”出现的频率更高，假设对于一个长文本（假设为10000，并且是描述足球比赛的），

“的中国”出现了100次，概率是1%

“中国队”出现了60次，概率是0.6%

“中国” 出现了200次，概率为2%

“的” 出现了500次，概率为5%

“队” 出现了70次，概率为0.7%

这样的数据情况下，“的”字和“中国”随机组合在一起的概率为5%*2%=1%，而“队”和“中国”随机组合在一起的概率为0.7%*2%=0.14%，显然“的中国”的出现概率和他们组合在一起的概率差不多，所以我们认为“的中国”更像是随机组合在一起的词而不是一个固定的词汇，但“中国队”出现的概率比他们组合在一起的概率高了4.28倍，所以我们认为“中国队”更像一个词汇。

通过上面的计算，我们就可以把“的中国”这样的词丢掉了，就算他出现了很多次，但是我们一样不认为它是一个词，这就是第一部分，我们把它叫词语的凝聚程度，“的中国”显然凝聚力不够。

第二，像类似“了一”这样的词在文章中肯定也出现得很多，因为是足球比赛文章，所以经常出现摔了一跤，进了一球等等，显然，“了一”也不是一个词汇，但是单独看“了”和“一”，“了一”的概

最低0.47元/天解锁文章

ygrx

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
一种没有语料字典的分词方法

前几天在网上闲逛，看到一篇美文，说的是怎么在没有语料库的情况下从文本中提取中文词汇，理论部分讲得比较多，但都还是很浅显易懂的，其中涉及一部分信息论的理论，其实只要大学开过信息论这门课的话，看起来还是挺简单的。信息论我忘得差不多了，但是其中主要的内容还记得，信息论最主要的就是信息其实是可以度量的，一个事件包含的信息和它发生的概率成反比，简单的说，同样一个事件，产生A结果的概率为Pa，产生
复制链接

扫一扫