数据规约

Grace-X

于 2019-10-17 16:16:23 发布

阅读量6k

点赞数 4

分类专栏：数据挖掘文章标签：数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45736186/article/details/102609396

版权

数据归约是通过属性选择和数据采样减少数据规模，保持数据完整性，提升数据分析效率。主要分为特征归约、样本归约和特征值归约，包括删除不相关特征、选择代表性样本和离散化连续特征等方法，旨在降低计算成本并提高挖掘精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是数据归约
　　数据归约是指在对挖掘任务和数据本身内容理解的基础上、寻找依赖于发现目标的数据的有用特征，以缩减数据规模，从而在尽可能保持数据原貌的前提下，最大限度地精简数据量。

数据归约的途径
　　数据归约主要有两个途径：属性选择和数据采样，分别针对原始数据集中的属性和记录。

假定在公司的数据仓库选择了数据，用于分析。这样数据集将非常大。在海量数据上进行复杂的数据分析扣挖掘将需要很长时间，使得这种分析不现实或不可行。

数据归约技术可以用来得到数据集的归约表示，它虽然小，但仍大致保持原数据的完整性。这样，在归约后的数据集上挖掘将更有效，并产生相同(或几乎相同)的分析结果。

数据归约的类型
　　1、特征归约

特征归约是从原有的特征中删除不重要或不相关的特征，或者通过对特征进行重组来减少特征的个数。其原则是在保留、甚至提高原有判别能力的

同时减少特征向量的维度。特征归约算法的输入是一组特征，输出是它的一个子集。在领域知识缺乏的情况下进行特征归约时一般包括3个步骤:

(1)搜索过程:在特征空间中搜索特征子集，每个子集称为一个状态由选中的特征构成。

(2)评估过程:输入一个状态，通过评估函数或预先设定的阈值输出一个评估值搜索算法的目的是使评估值达到最优。

(3)分类过程:使用最终的特征集完成最后的算法。

2、样本归约

样本都是已知的，通常数目很大，质量或高或低，或者有或者没有关于实际问题的先验知识。

样本归约就是从数据集中选出一个有代表性的样本的子集。子集大小的确定要考虑计算成本、存储要求、估计量的精度以及其它一些与算法和数据特性有关的因素。

初始数据集中最大和最关键的维度数就是样本的数目，也就是数据表中的记录数。数据挖掘处理的初始数据集描述了一个极大的总体

最低0.47元/天解锁文章

博客等级

码龄6年

1
原创

4
点赞

9
收藏

0
粉丝

关注

私信

热门文章

数据规约 6075

分类专栏

数据挖掘 1篇

最新评论

数据规约
Nik1988: 能否说一下还有哪些与算法和数据属性有关的因素需要在样本规约中考虑的呢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。