什么是数据归约
数据归约是指在对挖掘任务和数据本身内容理解的基础上、寻找依赖于发现目标的数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下,最大限度地精简数据量。
数据归约的途径
数据归约主要有两个途径:属性选择和数据采样,分别针对原始数据集中的属性和记录。
假定在公司的数据仓库选择了数据,用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间,使得这种分析不现实或不可行。
数据归约技术可以用来得到数据集的归约表示,它虽然小,但仍大致保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。
数据归约的类型
1、特征归约
特征归约是从原有的特征中删除不重要或不相关的特征,或者通过对特征进行重组来减少特征的个数。其原则是在保留、甚至提高原有判别能力的
同时减少特征向量的维度。特征归约算法的输入是一组特征,输出是它的一个子集。在领域知识缺乏的情况下进行特征归约时一般包括3个步骤:
(1)搜索过程:在特征空间中搜索特征子集,每个子集称为一个状态由选中的特征构成。
(2)评估过程:输入一个状态,通过评估函数或预先设定的阈值输出一个评估值搜索算法的目的是使评估值达到最优。
(3)分类过程:使用最终的特征集完成最后的算法。
2、样本归约
样本都是已知的,通常数目很大,质量或高或低,或者有或者没有关于实际问题的先验知识。
样本归约就是从数据集中选出一个有代表性的样本的子集。子集大小的确定要考虑计算成本、存储要求、估计量的精度以及其它一些与算法和数据特性有关的因素。
初始数据集中最大和最关键的维度数就是样本的数目,也就是数据表中的记录数。数据挖掘处理的初始数据集描述了一个极大的总体