数据分析 数据规约

一.概念

"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2:"属性规约""数值规约"

二.属性规约
1.概念:

"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大
类:"特征选择""特征提取"

2.特征选择
(1)概念:

"特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间

(2)方法:

"决策树"(Decision Tree)
"分支定界法"(Branch and Bound)
"序列前向选择"(Sequential Forward Selection)
"序列后向选择"(Sequential Backward Selection)
"模拟退火"(Simulated Annealing)
"竞技搜索"(Tabu Search)
"遗传算法"(Genetic Algorithms)

3.特征提取
(1)概念:

"特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA

(2)主成分分析:

参见 机器学习.主成分分析 部分

(3)线性判别分析:

参见 机器学习.线性判别分析 部分

(4)独立成分分析:

"独立成分分析"(Independent Component Analysis;ICA)

三.数值规约
1.概念:

"数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法""无参数方法"

2.有参数方法
(1)概念:

"有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数

(2)方法:

"回归"(Regression)
  "多元回归"(Multivariable Regression)
  "线性回归"(Linear Regression)
"对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布

3.无参数方法
(1)概念:

"无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据

(2)方法:

"直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
"聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
"抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集
  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值