许多数据挖掘模型(贝叶斯决策模型)是基于一假设条件的:数据的概率密度函数的参数形式已知,然后去估计其参数,并且有参数估计方法,最大似然估计和贝叶斯参数估计等。这一假设是带有相当大的局限性的,第一:假设是否总是成立;第二:经典的密度函数的参数形式都是单峰的,怎么处理多峰问题;第三:高维概率密度可由一些一维概率密度组成是否总是成立。此时,我们不禁要问,如何才能绕开这一假设,而直接处理任意概率分布的数据呢。非参数方法,给我们提供了不必假设概率密度的参数形式,而直接估计概率密度。
非参数概率密度的估计
先讲解一下非参数概率密度估计的理论支持。怎样进行估计概率密度,为什么会收敛于真实的概率密度值。
怎样概率密度估计
核心:一个向量 x 落于区域
如果 p(x) 是连续的,且区域 R 足够小,则上式可以变化一下:
则可以 得到 p(x) 的估计: p(x)≈PV
如果 n 个样本
其中 k 的期望为: