大学期间概率论学过贝叶斯公式,当时感觉它的作用就是用先验概率和似然概率求后验概率,并没有任何直观的感受,仅用于求解不同条件下的概率值。今天读了一本新书,其中的一段基于自然语言处理上的理解给了我很大的启发,豁然开朗,因此发博客分享一下,同时也记录一下自己思考的过程,以供后续对nlp的思考和深入。
简述贝叶斯公式
贝叶斯法则是现在很多模型的基础,现代社会的很多新技术都需要它的支撑,例如:贝叶斯模型估计,机器翻译,Query纠错,搜索引擎等等。该公式由托马斯·贝叶斯生前提出,由好友替他发表论文,定义如下:
p(x|y)是后验概率,p(y|x)是似然概率,p(x)是先验概率,p(y)一般称为标准化常量。由此可见,后验概率就可以用似然概率和先验概率表示。
具体实例——贝叶斯公式在统计语言模型的应用
中文分词的基本原理:中文分词是中文自然语言处理中最底层,最基本的一个技术,所有的文本处理任务都要先进行分词。
最简单的办法就是查字典,如果这词在字典中出现了,那么就是一个词 。查字典最常用的策略就是最大匹配法。最大匹配法是匹配在字典中出现的最长的词。举例来说,“中国地图”, 中国在字典中,中国地不在字典中ÿ