注:一个外行不明白什么是核密度估计,查了一些资料,做个简单的读书笔记,里面还有一知半解的地方,请大家批评指导。
阅读笔记——核密度估计
核密度估计的目的是要产生概率密度函数,先看看什么是概率密度函数。
1、什么是概率密度函数(密度函数)
概率密度函数一般以小写“pdf”(Probability Density Function)标记,是一个描述随机变量在某个确定取值点附近出现的可能性的函数。
随机变量取值落在某个区间内的概率是概率密度函数在这个区间上的积分,称为累积分布函数(分布函数)。分布函数是概率密度函数的积分。
简单的说,变量处于某个区间的可能性称为概率,当区间等于“单位宽度”的时候,概率就是变量在该点的概率密度。通常说的X在某一点的概率(如x=5,f(x)=0.6)就是X在该点(x=5)的概率密度(0.6)。曲线表示概率密度函数,曲线下包围的面积表示概率。例子:正态分布是重要的概率分布,它的概率密度函数是:
随着参数和变化,概率分布函数(即曲线)也变化。
2、什么是核密度估计:
核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数(,可对应于连续空间中的概率密度函数),属於非参数检验方法之一。即用“核”来估计概率密度函数,当采用“平滑核”时,估计出的概率密度函数也是平滑的。当采用“非平滑核”时,估计出的概率密度函数也是不连续的。很多情况下都采用高斯核(Gaussin Kernel),这时称为高斯核密度估计,即用高斯核估计样本的概率密度函数。直方图密度估计(即由直方图表示概率)和核密度估计都是非参数密度估计的方法。
用直方图估计密度函数还是有不完美的地方:1) 密度函数是不平滑的2) 密度函数受子区间宽度影响很大,如果我们取0.5,5等构造出的密度函数显然与宽度取2的有很大差异。3) 当数据维数是1,2维情况下,直方图的使用是很普遍的,但是在数据维数再增加时,这种方法就有局限性了。
从某种程度上来说核密度估计的性质比直方图更好,可以替代直方图来展示数据的密度分布。
核密度函数是散点平滑里面的概念,它是在估计某一点的函数时用这一点周围的几个点,根据这几个点到这一点的距离给予不同权重的函数
核密度估计也不是很完美,还是存在着一些缺陷。想要获得比较好的概率密度函数,h带宽(bandwidth)的选择就是个很大的问题,太大或者太小都能很大程度上影响p(x)结果。另外,核密度估计存在边界问题。
核密度估计的一个简单例子:应用数学实习课题-核密度估计的实现与简单应用。
总结:概率密度函数带宽h因样本数量不同而不同,因样本分布不同而不同。即h的选取不仅与样本数量有关,还与样本本身的性质(样本分布)有关。
根据我的理解举个例子:
问题:给出一组数{X1、X2.....X500},求X501落到X10-X20之间的概率。
解决:采用非参数估计方法计算出总体的概率密度函数p(x),然后计算p(x)在区间[X10,X20]上的积分即可。
步骤2:利用核密度估计公式
得到如下核密度估计公式:
步骤3:(编程)利用样本计算含参数h的概率密度函数
步骤4:利用样本检验不同h的估计效果,确定合适的h
步骤5:得到概率密度函数p(x)
步骤6:求p(x)在区间[X10,X20]上的积分,积分值即为X501落到X10-X20之间的概率。
核密度估计的思想:即远小近大,某个样本出现后,认为与该样本相邻的样本出现的概率增加。
3、参数估计与非参数估计:
由给定样本点集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。
在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态、高斯等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。
在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。
经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法.由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。
【致谢】http://blog.163.com/zhuandi_h/blog/static/1802702882012111092743556/