3、描述性数据汇总
描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据应当视为噪声或离群点。
对数据预处理的任务,可以从数据的中心趋势和离中趋势上来理解数据的分布。为了对大数据进行有效计算,可以使用不同的度量方法。
中心趋势:均值(mean)、中位数(median)、众数(mode)、中列数(midrange)
离中趋势:四分位数(quartiles)、四分位数极差(interquartile range,IQR)、方差(variance)
度量方法:分布式度量、代数度量、整体度量
3.1中心趋势:
均值:数据的平均值
优点:描述数据集很容易理解
缺点:对极端值很敏感。可以使用截断均值的方法来避免。
中位数:对给定的N个值按数值序排序,N为奇数,则中位数是有序集的中间值;否则为中间两个值的平均值。
适用范围:非对称(倾斜的)数据。例如:1-10之间的数据分布很少 ,但是10-20之间的数据分布很多。
众数:集合中出现频率最高的值,可能不只一个,也可能没有。对含有一个、两个、三个众数的数据集合分别称为单峰、双峰、三峰。
对适度倾斜的单峰频率曲线,我们有如下的经验关系:mean - mode = 3*(mean - median)(为啥)
3.2离中趋势
(待整理)
3.3度量方法
分布式度量:将数据集划分为小的子集,计算每个子集的度量,然后合并计算结果
代数度量:应用一个代数函数于一个或多个分度量计算。如 加权算术均值。
整体度量:必须对整个数据进行计算。如中位数计算不能通过划分子集的方法来计算,并且整体计算开销很大。但是可以使用其他方法,计算整个数据集的中位数的近似值。(待整理)