数据平滑、维数灾难和数据稀疏

数据平滑(smoothness), 维数灾难(curse of dimensionality), 和 数据稀疏( data sparsity)。

维数灾难和数据稀疏通常是相伴而生的,因为维数的增大是的统计需要更多的样本来支撑,而当所谓的“维数灾难”产生时,是很难获得足够的样本数量来支撑统计的。产生的直观结果是统计结果中会出现大量结果为零的属性。此时认为 浪费了存储空间。另外,无论是否产生数据稀疏问题, 维数灾难都会使得计算复杂度急剧增长。假设存储空间和计算资源都足够使用,那么,维数灾难还有很么危害呢?为什么要使用数据平滑技术进行处理?

首先,当统计结果中出现某一特征值为零时,并不一定意味着该特征的取值为零,通常的含义是“取值未知”。比如,在体征统计中,某人身高为零,显然是还没有取得统计数据。因此需要使用平滑技术给改点赋予一个可能的值。

第二,机器学习中的局部学习方法,比如局部加权回归、kernel machines with a fixed generic local-response kernel等,会使用在 空间中相邻的样本逼近目标函数在这些样例所在空间的 一般形式。这些方法假设目标函数是光滑的。当出现维度灾难时,这些特征背后隐含的目标函数的波峰波谷将急剧增加(真实的目标函数不一定会有这样剧烈的波动,这种波动是由于将函数映射到了生成的高维空间中造成的)。这与假设产生了矛盾。目标函数的波动进一步造成了局部学习法的失效。

Ref. A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retrieval 


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值