阅读笔记——核密度估计

注:一个外行不明白什么是核密度估计,查了一些资料,做个简单的读书笔记,里面还有一知半解的地方,请大家批评指导。

 

阅读笔记——核密度估计

核密度估计的目的是要产生概率密度函数,先看看什么是概率密度函数。

1什么是概率密度函数(密度函数)

概率密度函数一般以小写“pdf”(Probability Density Function)标记,是一个描述随机变量在某个确定取值点附近出现的可能性的函数。

随机变量取值落在某个区间内的概率是概率密度函数在这个区间上的积分,称为累积分布函数(分布函数)。分布函数是概率密度函数的积分。

简单的说,变量处于某个区间的可能性称为概率,当区间等于“单位宽度”的时候,概率就是变量在该点的概率密度。通常说的X在某一点的概率(如x=5f(x)=0.6)就是X在该点(x=5)的概率密度(0.6)。曲线表示概率密度函数曲线下包围的面积表示概率。例子:正态分布是重要的概率分布它的概率密度函数是:

随着参数变化,概率分布函数(即曲线)也变化。

 

2什么是核密度估计:

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数(,可对应于连续空间中的概率密度函数),属於非参数检验方法之一。即用“核”来估计概率密度函数,当采用平滑核时,估计出的概率密度函数也是平滑的。当采用非平滑核时,估计出的概率密度函数也是不连续的很多情况下都采用高斯核(Gaussin Kernel),这时称为高斯核密度估计,即用高斯核估计样本的概率密度函数。直方图密度估计(即由直方图表示概率)和核密度估计都是非参数密度估计的方法。

用直方图估计密度函数还是有不完美的地方:1) 密度函数是不平滑的2) 密度函数受子区间宽度影响很大,如果我们取0.5,5等构造出的密度函数显然与宽度取2的有很大差异。3) 当数据维数是1,2维情况下,直方图的使用是很普遍的,但是在数据维数再增加时,这种方法就有局限性了。

从某种程度上来说核密度估计的性质比直方图更好,可以替代直方图来展示数据的密度分布。

核密度函数是散点平滑里面的概念,它是在估计某一点的函数时用这一点周围的几个点,根据这几个点到这一点的距离给予不同权重的函数

核密度估计也不是很完美,还是存在着一些缺陷。想要获得比较好的概率密度函数,h带宽(bandwidth)的选择就是个很大的问题,太大或者太小都能很大程度上影响p(x)结果。另外,核密度估计存在边界问题。

 

核密度估计的一个简单例子:应用数学实习课题-核密度估计的实现与简单应用。

http://wenku.baidu.com/link?url=VNPB-ZAkaiV_74NFDe2f-r5hlU04q-RNT_dBUWnoRmqsToppaOVWgVO8MwforBdBNbByuVnSSU9XhQVKQeGd70rXQIrFFhmtLmhzJDmoQA7

总结:概率密度函数带宽h因样本数量不同而不同,因样本分布不同而不同。即h的选取不仅与样本数量有关,还与样本本身的性质(样本分布)有关。

 

根据我的理解举个例子:

问题:给出一组数{X1X2.....X500},X501落到X10-X20之间的概率。

解决:采用非参数估计方法计算出总体的概率密度函数p(x),然后计算p(x)在区间[X10,X20]上的积分即可。

步骤1:由于大部分情况都可以认为数据符合高斯分布,选择高斯核:

 
 

步骤2:利用核密度估计公式

 
 

得到如下核密度估计公式:

 
 

步骤3:(编程)利用样本计算含参数h的概率密度函数

步骤4:利用样本检验不同h的估计效果,确定合适的h

步骤5:得到概率密度函数p(x)

步骤6:求p(x)在区间[X10,X20]上的积分,积分值即为X501落到X10-X20之间的概率。

核密度估计的思想:即远小近大,某个样本出现后,认为与该样本相邻的样本出现的概率增加。

3、参数估计与非参数估计:

由给定样本点集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计非参数估计

参数估计又可分为参数回归分析和参数判别分析

参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态、高斯等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。

参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。

经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。由于上述缺陷,RosenblattParzen提出了参数估计方法,即核密度估计方法.由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。

  

【致谢】http://blog.163.com/zhuandi_h/blog/static/1802702882012111092743556/

 

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值