nlp中基于统计语言模型对贝叶斯公式的理解

大学期间概率论学过贝叶斯公式,当时感觉它的作用就是用先验概率和似然概率求后验概率,并没有任何直观的感受,仅用于求解不同条件下的概率值。今天读了一本新书,其中的一段基于自然语言处理上的理解给了我很大的启发,豁然开朗,因此发博客分享一下,同时也记录一下自己思考的过程,以供后续对nlp的思考和深入。

简述贝叶斯公式

贝叶斯法则是现在很多模型的基础,现代社会的很多新技术都需要它的支撑,例如:贝叶斯模型估计,机器翻译,Query纠错,搜索引擎等等。该公式由托马斯·贝叶斯生前提出,由好友替他发表论文,定义如下:

p(x|y)=\frac{p(y|x)p(x)}{p(y)}

p(x|y)是后验概率,p(y|x)是似然概率,p(x)是先验概率,p(y)一般称为标准化常量。由此可见,后验概率就可以用似然概率和先验概率表示。

具体实例——贝叶斯公式在统计语言模型的应用

中文分词的基本原理:中文分词是中文自然语言处理中最底层,最基本的一个技术,所有的文本处理任务都要先进行分词。

最简单的办法就是查字典,如果这词在字典中出现了,那么就是一个词 。查字典最常用的策略就是最大匹配法。最大匹配法是匹配在字典中出现的最长的词。举例来说,“中国地图”, 中国在字典中,中国地不在字典中ÿ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值