数据的中间部分
数据的中间部分,也被统计学家称为集中趋势。
1,巨数法则:如果样本足够大,极端不可能发生的怪事、奇事、离谱事也是有可能发生的,也就能理解那些所谓“惊人”的巧合。令人不可思议的巧合若放在大背景下观察,发生的概率就大很多了。由此提醒人们别被巧合忽悠。
一个人买两张彩票都中头奖的机会是几万亿分之一,然而在几百万彩民里头,出现一个这样的幸运儿的机会则是几十分之一。
2,集中趋势度量:集中趋势又称“数据的中心位置”、“集中量数”等。常用的有平均数、中位数和众数等,它们在不同类型的分布数列中有不同的测定方法。
中位数:是按顺序排列的一组数据中居于中间位置的数,代表一个样本、种群或概率分布中的一个数值。
平均数:表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。
众数:在统计分布上具有明显集中趋势点的数值,代表数据的一般水平。
3,期望
数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
4,偏态
偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短
数据的散布度量
1,散布度量
考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。
2,极差
统计资料中的变异量数(英语:measures of variation),为最大值与最小值之间的差额,即最大值减最小值后所得数值。极差没有充分利用数据的信息,但计算十分简单,仅适用样本容量较小(n<10)情况。极差不能用作比较,单位不同。
3,分位数
分位数就是用概率作为依据将一批数据分开的点。
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。
Q1,下中位数,25%位置
Q2,中位数,50%位置
Q3,上中位数,75%位置
利用概率分布来为我们确定当数据有序分布后处于某个特殊位置的数值,再利用其为我们达到选择,筛选,修正等目标。
百分位数,将一组数据从小到大排序,并分成一百等份,则某一百分位所对应数据的值就称为这一百分位的百分位数。
4,方差、标准差
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。是指每个样本值与全体样本值的平均数之差的平方值的平均数。标准差有计量单位,而方差无计量单位,但两者的作用一样。
故在此仅介绍标准差。标准差用平方的方法消除了正负号,因而它是最常用、最重要的离散趋势统计量。标准差越大,表示变量值之间的差异越大,各数据距离均值越远,则平均数的代表性就越低。反之,标准差越小,表示变量值之间的差异越小,各数据距离均值较近,则平均数的代表性就越高。
标准差在实际生活中也有广泛的应用。例如,可以用标准差来测定居民收入分配的差异程度,还可以用来反映平均收支、平均结余、平均产量等经济变量的代表性等。