概率统计基础
一、 数组的集中趋势
集中趋势最能包含数组关键特征
均值 –
避免使用的情况:样本中极值且极值在使用场景中不常出现(即是否有异常值)
中位数—比均值好在不受极端值的影响;
众数—很好的反应的数据的集中趋势(用户量最大);
EXCEL: 函数
均值 average
中位数median
Quartile() 0-最小值,1,下四分位数,2-中位数,3-上四分位数,4-最大值
众数 mode
R
均值:mean
中位数 median
众数: 无内置函数
二、 数组的离散程度
极差,方差,标准差 三个数据来分析离散程度,离散程度考察数据的稳定性
极差—
最大值-最小值
比如 某地的温差过大
方差—
每一个变量与总体均值间的差异,但是实际过程中总体数据很大,故合理的采用样本均值来代替总体均值;
[(x1-x均)^2+…+ (xn-x均)^2]/(n-1)
标准差
方差开方
因为方差平方的不止是数值,还有数据的单位,为了将方差的单位还原成盒原数组一致,引入标准差。
EXCEL和R语言中的实现
EXCEL
极差: MAX-MiN
方差:Var(数组)