核密度估计原理

核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。

        假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的:

                               

其中f(x)为标准正太分布的概率密度函数。

       (1)基本原理:

       核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。

      那么公式中的,就是那个除数是做什么用的呢?其实这个因素是用为控制拟合出的密度分布函数的函数。

      (2)存在的问题:

      我感觉这种方法会存在两个问题。

      第一个是边界问题。比如满足[0,1]之间的均匀分布的数有1000w个,人工大致已经可以看出概率分布。但用核密度估计估计出来的结果会非常奇怪。[-1,0]和[1,2]之间的数的概率密度不会被估计为0。主要原因是因为有边界的影响。具体怎么影响,我还没有想或者看明白。

      第二个问题是。训练好核密度估计程序之后,我们可以求出 的所有概率密度。但这些概率密度的积分却不能保证为1。这在理论上和概率论的原理还是有点冲突。

转自:http://hi.baidu.com/searcher_go_go/blog/item/ba23bdf6d6814802b17ec563.html

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值