核密度估计（kernel density estimation，KDE）

最新推荐文章于 2024-08-16 16:03:09 发布

yangmei3668038

最新推荐文章于 2024-08-16 16:03:09 发布

阅读量1.6w

点赞数 1

分类专栏：图像处理文章标签： KDE

图像处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

核密度估计（kernel density estimation）是在概率论中用来估计未知的密度函数，属於非参数检验方法之一，由Rosenblatt (1955)和 Emanuel Parzen (1962)提出，又名 Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

统计分布密度估计是根据观测数据而对其假定的概率函数进行估测。核密度估计(KERNEL DENSITY ESTIMATE)属于一种非参数的估计方式：对某一已知的的密度函数，也就是KERNEL, 在观测点上平均化，以期得到一条光滑的估计曲线。

核密度估计VS直方图估计

直方图密度估计是较为传统的非参密度估计方法，通常我们的做法：

1 将数据值覆盖的数据区间分成几个等子区间（bin)。

2 一个数据值落到这个相应的子区间，这个子区间块的高度就相应的加一个单位的高度。

举个wiki上的例子：

现在有6个数据点：x1=-2.1, x2=-1.3, x3=-0.4, x4=1.9, x5=5.1, x6=6.2.我们取子区间的宽度为2，然后按照步骤2依次操作：

核密度估计 - zhuandi_h - scholar_fish

图1 构造的直方图

这样我们就利用样本数据构造出了概率密度函数。

但是从图中很显然，利用直方图估计密度函数还是有不完美的地方：

1 密度函数是不平滑的

2 密度函数受子区间宽度影响很大，如果我们取0.5，5等构造出的密度函数显然与宽度取2的有很大差异。

3 当数据维数是1，2维情况下，直方图的使用是很普遍的，但是在数据维数再增加时，这种方法就有局限性了。

而基于核密度估计的方法就没有直方图的3的局限性。而且当我们采用平滑的核时，概率密度函数也是平滑的；但是当我们采用非平滑核时，概率密度函数也还是不连续的。

kernel density estimation:

假设样本数据值在D维空间服从一个未知的概率密度函数，那么在区域R内的概率为：

核密度估计 - zhuandi_h - scholar_fish

概率P的含义就为每个样本数据点落入区域R的概率为P.假设N个样本数据点有K个落入了区域R，那么就应该服从二项分布：

核密度估计 - zhuandi_h - scholar_fish

由概率知识可知，在N样本数据很大时，K约等于N*P。而另一方面，我们假设区域R足够小的话，那么P约等于p(x)*V(V为区域R的空间）。结合两个不等式子可得：

核密度估计 - zhuandi_h - scholar_fish （1）

那么，接下来根据等式（1）来估算p(x)就有两条路可以走：

1 K不变，我们通过决定区域V的大小来估算密度函数，那么我们就采用K-nearer-neighbour方法（这里不具体讨论）。

2 V不变，我们通过决定K的大小来估算密度函数，那么我们采用kernel方法。

我们顺着2的思路走下去。

假设区域R是一个以x为中心，边长为h的极小立方体（也就是V不变），我们现在要考虑的是落入立体体数据点的个数K。我们定义一个kernel函数：

核密度估计 - zhuandi_h - scholar_fish

该函数的意义是：数据维数为D维，当样本数据点落入小立方体时，函数值为1，其他情况下为0。所以落入立方提数据点的总个数K就可以表示为：

核密度估计 - zhuandi_h - scholar_fish （2）

那么根据等式（1），把等式（2）代入（1）中，可得：

核密度估计 - zhuandi_h - scholar_fish

此处的核密度估计 - zhuandi_h - scholar_fish 。

上面我们说过，当kernel density estimation采用平滑核时，估计出的概率密度函数也是平滑的。我们很多情况下都采用Gaussin Kernel.

然而，核密度估计也不是很完美，还是存在着一些缺陷。我们想要获得比较好的概率密度函数，h带宽（bandwidth)的选择就是个很大的问题，太大或者太小都能很大程度上影响p(x)结果。

来个例子理解下（还是上文提到过的6个样本数据点）：

假设我们采用Gaussin Kernel,方差取2.25.

核密度估计 - zhuandi_h - scholar_fish

注：蓝线代表估计出的p(x),每条红线代表一个样本数据点。

我们看p(x)是连续的，从某种程度上来说就相当于在估计值之外的区域进行插值处理。

转自：http://blog.163.com/zhuandi_h/blog/static/1802702882012111092743556/

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。