数据预处理(2)

3、描述性数据汇总

描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据应当视为噪声或离群点。

对数据预处理的任务,可以从数据的中心趋势和离中趋势上来理解数据的分布。为了对大数据进行有效计算,可以使用不同的度量方法。

中心趋势:均值(mean)、中位数(median)、众数(mode)、中列数(midrange)

离中趋势:四分位数(quartiles)、四分位数极差(interquartile range,IQR)、方差(variance)

度量方法:分布式度量、代数度量、整体度量

3.1中心趋势:

均值:数据的平均值

优点:描述数据集很容易理解

缺点:对极端值很敏感。可以使用截断均值的方法来避免。

中位数:对给定的N个值按数值序排序,N为奇数,则中位数是有序集的中间值;否则为中间两个值的平均值。

适用范围:非对称(倾斜的)数据。例如:1-10之间的数据分布很少 ,但是10-20之间的数据分布很多。

众数:集合中出现频率最高的值,可能不只一个,也可能没有。对含有一个、两个、三个众数的数据集合分别称为单峰、双峰、三峰。

对适度倾斜的单峰频率曲线,我们有如下的经验关系:mean - mode = 3*(mean - median)(为啥

3.2离中趋势

 (待整理

3.3度量方法

分布式度量:将数据集划分为小的子集,计算每个子集的度量,然后合并计算结果

代数度量:应用一个代数函数于一个或多个分度量计算。如 加权算术均值。

整体度量:必须对整个数据进行计算。如中位数计算不能通过划分子集的方法来计算,并且整体计算开销很大。但是可以使用其他方法,计算整个数据集的中位数的近似值。(待整理


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值