核密度估计KDE与直方图的易错点

1. 直方图

Python中直方图Y轴有多种。其中,(标准)直方图的Y轴是频数。X轴上的每一段,是一个分组。有

每个分组的数据量 = 组距*频数

例如,在对比图中,直方图的高分别为1/12,2/12,1/12,0,1/12,1/12.宽度为2.图源来自WIKI。
在python3中,norm_hist为True,则直方图的高度默认为density(密度),而非count(次数)。在含有KDE的图像中,默认为True。用于概率密度的直方图的总面积始终归一化为1。


2.KDE 核密度估计

KDE就是对每个样本点进行处理,得到若干个核函数,再线性叠加且保证最后曲线下的面积为1。比如,有样本点(-2.1 -1.3 -0.4 1.9 5.1 6.2)。
那么,分别将-2.1,-1.3,-0.4,1.9,5.1,6.2的值,与标准差(带宽)为2.25代入,得到6个均值不同,标准差相同的高斯函数,再进行线性叠加。并处理,使面积为1,如对比图。进行公式推导
在这里插入图片描述

h是带宽。除以N是为了计算密度。括号前的1是大写的1,判断符合条件不。当然,你也可以用[F(x+h)-F(x)]/h来推断,接下来把分母上的2去掉就可以。这个更简单,不过懒得打,意思到了就行。而且反正这个是来模拟密度的,一些曲线下面积为1的核函数符合要求(曲线没有在x轴下方的;核函数还对称,可以控制峰值),就用现成的搞。
在这里插入图片描述
注意下,是标准正态分布的密度函数。h在这里是带宽,也是标准差。

常见的核(密度)函数有:
此处高斯核漏了方差,请注意标注差为高斯核的带宽

请注意:

  • 高斯核的带宽(h)通常为标准差【按照公式对应来看,h在 σ \sigma σ的位置处】;只有一个自变量直接代进去算(默认),两个要做减(二范数)。
  • 盒内核和Epanechnikov内核在有限范围之外为零,而高斯内核在任何地方都非零,但在有限域外可忽略不计。 事实证明,KDE产生的曲线并不依赖于内核函数的特定选择【因为最后要线性相加和归一】,所以我们可以自由地使用最方便的内核。 因为它很容易使用,高斯内核是最广泛使用的。
  • 构建KDE需要做的事情:首先,我们必须通过适当地移动内核来移动每个点的位置。 例如,函数K(x-xi)将在xi处具有峰值,而不是0.其次,我们必须选择内核带宽来控制内核函数的扩展。 带宽越窄,峰越陡。

3.对比

在这里插入图片描述
图片是从wiki上下载的。右边的图,蓝色线还没有除以n,所以面积不是1。通过对比图可以知道,核密度估计的平滑度(与直方图的离散度相比)对于连续随机变量,核密度估计更快地收敛到真实的基础密度。


4.延伸

  • 为啥高斯核可以把特征维度上升到无限维?
    在这里插入图片描述
  • 核函数和映射的关系?
    —— 仅供参考FYI
    在这里插入图片描述
    x是列向量。这么长一段不看也无所谓,总之就是说,核技巧(kernel trick)使得不用选映射就可以直接在原始样本空间计算映射后的内积。极大地化简了运算。不用担心映射存在与否,因为任何一个核函数都隐式地定义了一个再生核希尔伯特空,必然可以找到对应的映射。

参考文献

[1]https://blog.csdn.net/liangzuojiayi/article/details/78152180
[2]https://blog.csdn.net/wuyanxue/article/details/79642758
[3]https://caserwin.gitbook.io/machine-learning/69/37/62/101
[4]https://www.zhihu.com/question/27301358/answer/105267357
[5]https://en.wikipedia.org/wiki/Kernel_density_estimation
[6]https://en.wikipedia.org/wiki/Histogram

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 高斯核密度估计(Kernel Density Estimation,KDE)是一种用于估计概率密度函数的非参数方法。它通过将每个数据周围的高斯函数叠加起来来估计数据集的概率密度。 KDE的值是指在给定某一数据处的概率密度估计值。计算KDE的值通常需要确定函数的带宽(bandwidth)参数,它决定了函数的宽度,即对数据周围的影响范围。 在给定一组数据和带宽参数后,KDE的值可以通过以下的计算过程获得: 1. 对于每个数据,计算与该数据距离在带宽范围内的所有其他数据函数值。 2. 将所有函数值求和并除以数据数量,得到该数据处的概率密度估计值。 基于高斯函数的KDE通常具有较好的光滑性和连续性,适用于连续型数据的概率密度估计。通过调整带宽参数,可以控制估计值的平滑程度和准确性。 KDE的值可以用于多个应用场景,如异常检测、模式识别、分类等。在异常检测中,较低的KDE值可能表明该数据具有较低的概率出现,从而可能被视为异常值。在模式识别中,可以利用KDE的值来区分不同的数据模式。在分类问题中,可以利用KDE的值来评估新数据属于各个类别的概率,从而进行分类决策。 总之,高斯核密度估计KDE)提供了一种非参数方法来估计概率密度函数,通过将每个数据周围的高斯函数叠加起来来获得数据集的概率密度估计值。KDE的值可以用于多种应用场景,具有广泛的实际意义。 ### 回答2: 高斯核密度估计KDE)是一种用于估计随机变量分布的非参数方法。它的基本思想是将每个观测样本视为一个高斯函数的中心,并根据每个样本周围的邻域来估计密度函数的值。 KDE的计算过程如下: 1. 首先选择一个函数,通常选择高斯函数作为函数。 2. 对每个观测样本,以该为中心构建一个高斯函数。 3. 对每个高斯函数,计算该函数在各个自变量上的值。 4. 将所有高斯函数的值加权求和,得到估计密度函数的值。 在计算KDE的过程中,需要考虑两个重要的参数:函数的带宽和观测样本的数量。函数的带宽决定了高斯函数对密度函数的贡献程度,较小的带宽会导致估计过于敏感,较大的带宽会导致估计过于平滑。观测样本的数量影响到对密度函数的完整覆盖程度,较少的样本可能会导致估计不准确。 KDE在实际应用中具有广泛的应用,例如在统计分析、数据挖掘和机器学习中。它可以用于分析数据的分布特征、寻找异常、生成合成数据以及进行分类和聚类等任务。 总结来说,KDE是一种通过将每个观测样本视为高斯函数的中心,根据每个样本周围的邻域来估计密度函数的非参数方法。它能够通过调整函数的带宽和观测样本的数量来灵活地对不同的数据分布进行建模和估计。 ### 回答3: 高斯核密度估计KDE)是一种非参数的概率密度估计方法。它基于观测数据的分布情况,通过在每个数据周围创建一个高斯函数的方式来估计整体的概率密度函数。 KDE的值表示某个特定的概率密度估计。具体来说,对于给定的输入KDE计算该周围邻近的贡献,并将它们的高斯函数叠加在一起得到该的概率密度估计值。 在计算过程中,KDE使用一个带宽参数来控制高斯函数的宽度,带宽越小则高斯函数的影响范围越小,估计的概率密度函数越细致;带宽越大则高斯函数的影响范围越大,估计的概率密度函数越平滑。 KDE的值可以用来表示某个数据在数据集中的相对重要性或罕见性。具体来说,KDE值较高的表示该周围有较多的数据,因此被认为是数据集中的常见;而KDE值较低的表示该周围较少的邻近,因此被认为是数据集中的罕见。 总结起来,高斯核密度估计KDE)的值代表了在给定数据周围创建高斯函数并叠加后得到的概率密度估计值。它可以用来衡量数据的重要性或罕见性,并且随着带宽参数的不同而产生不同的估计结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值