数据分析数据规约

最新推荐文章于 2024-05-01 21:18:35 发布

EdVzAs

最新推荐文章于 2024-05-01 21:18:35 发布

阅读量7.8k

点赞数 4

文章标签：数据分析数据挖掘数据规约

本文链接：https://blog.csdn.net/weixin_46131409/article/details/113406939

版权

机器学习同时被 2 个专栏收录

66 篇文章 5 订阅

订阅专栏

数据分析

54 篇文章 13 订阅

订阅专栏

一.概念

"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2类:"属性规约"和"数值规约"

二.属性规约
1.概念:

"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当
于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大
类:"特征选择"和"特征提取"

2.特征选择
(1)概念:

"特征选择"(Feature Selection)是指从原始特征集中选出1组最具统计意义的特征,以降低数据集中的属性数,不会改变原特征空间

(2)方法:

"决策树"(Decision Tree)
"分支定界法"(Branch and Bound)
"序列前向选择"(Sequential Forward Selection)
"序列后向选择"(Sequential Backward Selection)
"模拟退火"(Simulated Annealing)
"竞技搜索"(Tabu Search)
"遗传算法"(Genetic Algorithms)

3.特征提取
(1)概念:

"特征提取"(Feature Extraction)是指将原始特征转换为1组具有明显物理或统计意义的特征,以降低数据集中的属性数.其和特征选择的区别在于
特征提取会通过转换原有特征得到新的特征,因而会改变原特征空间.方法主要包括PCA,LDA,SVD,ICA

(2)主成分分析:

参见 机器学习.主成分分析 部分

(3)线性判别分析:

参见 机器学习.线性判别分析 部分

(4)独立成分分析:

"独立成分分析"(Independent Component Analysis;ICA)

三.数值规约
1.概念:

"数值规约"(Numerosity Reduction)是指通过减少数据集中的数据量来精简数据集.数值规约方法有2大类:"有参数方法"和"无参数方法"

2.有参数方法
(1)概念:

"有参数方法"是指使用参数模型来近似原数据,最后只需要存储参数

(2)方法:

"回归"(Regression)
  "多元回归"(Multivariable Regression)
  "线性回归"(Linear Regression)
"对数线性模型"(Logarithmic Linear Model)用于近似离散属性集中的多维概率分布

3.无参数方法
(1)概念:

"无参数方法"是指使用1个较少的数据集来近似原数据,需要存放实际数据

(2)方法:

"直方图"(Histogram)使用数据在多个互不相交的子集(称为"分箱"(Bin))中的分布来近似原数据分布
"聚类"(Cluster)将记录分入不同的"簇"(Cluster),再用簇来近似实际数据
"抽样"(Sampling)使用从原数据集中按一定规则抽取的1个子集(称为"样本"(Specimen))来近似原数据集

EdVzAs

关注

4
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
数据分析数据规约

一.概念"数据规约"(Data Reduction)是指在尽可能保持数据原貌的前提下,最大限度地精简数据集.数据规约又分为2类:"属性规约"和"数值规约"二.属性规约1.概念:"属性规约"(Attributes Reduction)是指通过减少数据集中的属性来精简数据集,目的是减少系统资源的消耗并降低无效/错误数据的影响.这相当于降低表示成向量的数据的维度,因此又称"数据降维".由于不同属性包含了不同的信息量,需要选择舍弃哪些属性才能最小化信息损失.降维方法有2大类:"特征选择"和"特征提取"
复制链接

扫一扫