数据预处理（2）

最新推荐文章于 2023-03-09 12:49:16 发布

冀州黑马

最新推荐文章于 2023-03-09 12:49:16 发布

阅读量512

点赞数

本文链接：https://blog.csdn.net/woshishantao/article/details/7855371

版权

数据挖掘笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

3、描述性数据汇总

描述性数据汇总技术可以用来识别数据的典型性质，突显哪些数据应当视为噪声或离群点。

对数据预处理的任务，可以从数据的中心趋势和离中趋势上来理解数据的分布。为了对大数据进行有效计算，可以使用不同的度量方法。

中心趋势：均值（mean）、中位数（median）、众数（mode）、中列数（midrange）

离中趋势：四分位数（quartiles）、四分位数极差（interquartile range，IQR）、方差（variance）

度量方法：分布式度量、代数度量、整体度量

3.1中心趋势：

均值：数据的平均值

优点：描述数据集很容易理解

缺点：对极端值很敏感。可以使用截断均值的方法来避免。

中位数：对给定的N个值按数值序排序，N为奇数，则中位数是有序集的中间值；否则为中间两个值的平均值。

适用范围：非对称（倾斜的）数据。例如：1-10之间的数据分布很少，但是10-20之间的数据分布很多。

众数：集合中出现频率最高的值，可能不只一个，也可能没有。对含有一个、两个、三个众数的数据集合分别称为单峰、双峰、三峰。

对适度倾斜的单峰频率曲线，我们有如下的经验关系：mean - mode = 3*（mean - median）（为啥）

3.2离中趋势

(待整理）

3.3度量方法

分布式度量：将数据集划分为小的子集，计算每个子集的度量，然后合并计算结果

代数度量：应用一个代数函数于一个或多个分度量计算。如加权算术均值。

整体度量：必须对整个数据进行计算。如中位数计算不能通过划分子集的方法来计算，并且整体计算开销很大。但是可以使用其他方法，计算整个数据集的中位数的近似值。（待整理）