古德-图灵估计(Good-Turing Estimate) From 《数学之美》(笔记)

第3章 统计语言模型

这是1953年古德(I.J.Good)在他老板图灵(Alan Turing)的指导下,提出的在统计中相信可靠的统计数据,而对不可信的统计数据打折扣的一种概率估计方法,同时将折扣出来的那一小部分概率给与未看见的时间(Unseen Events)。古德和图灵还给出一个很漂亮的重新估算概率的公式,这个公式后来被称为古德-图灵估计(Good-Turing Estimate)。

假定在语料库中出现r次的词有Nr个。有,现在假定当r比较小时,它的统计可能不可靠,因此在计算那些出现r次的词的概率时,要使用一个更小一点的次数,是dr。

古德-图灵估计按照下面的公式计算dr:

 

以上,吴军《数学之美》第二版

大数定理:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。(百度百科)

线性插值:线性插值的几何意义即为概述图中利用过A点和B点的直线来近似表示原函数。(百度百科)

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值