非参数估计-parzen窗估计和k近邻估计

  许多数据挖掘模型(贝叶斯决策模型)是基于一假设条件的:数据的概率密度函数的参数形式已知,然后去估计其参数,并且有参数估计方法,最大似然估计和贝叶斯参数估计等。这一假设是带有相当大的局限性的,第一:假设是否总是成立;第二:经典的密度函数的参数形式都是单峰的,怎么处理多峰问题;第三:高维概率密度可由一些一维概率密度组成是否总是成立。此时,我们不禁要问,如何才能绕开这一假设,而直接处理任意概率分布的数据呢。非参数方法,给我们提供了不必假设概率密度的参数形式,而直接估计概率密度。

非参数概率密度的估计

  先讲解一下非参数概率密度估计的理论支持。怎样进行估计概率密度,为什么会收敛于真实的概率密度值。

怎样概率密度估计

  核心一个向量 x 落于区域 R 内的概率为:
  

P=Rp(x)dx; p(x)

  如果 p(x) 是连续的,且区域 R 足够小,则上式可以变化一下:
  
Rp(x)dxp(x)V; VR
  则可以 得到 p(x) 的估计: p(x)PV
  如果 n 个样本 x1,x2,x3,...,xn 是根据概率密度 p(x) 独立同分布的采样得到的,则事件 k 个样本落在区域 R 内的概率 Pk 服从二项分布:
  
Pk=CknPk(1P)nk

  其中 k 的期望为: E(k)=nP 得到 P 的估计: Pkn
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Parzen法是一种常见的参数估计方法,用于估计概率密度函数。其基本思想是将一个函数放置在每个数据点上,然后将所有函数的贡献加起来得到估计值。具体来说,对于一个给定的函数 $K(x)$ 和一个数据点 $x_i$,估计值 $\hat{f}(x)$ 可以表示为: $$\hat{f}(x)=\frac{1}{n}\sum_{i=1}^n\frac{1}{h^d}K\left(\frac{x-x_i}{h}\right)$$ 其中,$n$ 是样本数量,$d$ 是数据维数,$h$ 是口大小,$K(x)$ 是函数,通常选择高斯函数或矩形函数。 在实验中,我们需要注意以下几点: 1. 口大小的选择:口大小 $h$ 的选择会影响到估计结果的准确性和平滑度。如果选择过小的口,估计值会受到噪声的影响,导致过拟合;如果选择过大的口,估计值会过于平滑,导致欠拟合。通常可以通过交叉验证来选择合适的口大小。 2. 函数的选择:函数的选择同样会影响到估计结果的准确性和平滑度。高斯函数能够更好地处理连续变量,而矩形函数则适用于离散变量。在实际应用中,也可以根据具体情况选择其他的函数。 3. 样本数量的影响:样本数量的增加会使得估计值更加准确,但同时也会增加计算复杂度。因此,在实际应用中需要根据实际情况选择合适的样本数量。 4. 多维数据的处理:在处理多维数据时,需要考虑到维数灾难的问题。随着数据维数的增加,需要的样本数量也会呈指数级增长。因此,在实际应用中需要使用一些技巧来降低维数,比如降维、特征选择等。 总之,Parzen法是一种常用的参数估计方法,理论基础坚实,实现简单,但需要根据实际情况选择合适的口大小和函数,并注意处理多维数据时的维数灾难问题。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值