统计量
为什么有统计学问题?
当我们观察到某些数据,如某个班级中所有学生的年龄、性别、考试分数等。但样本(信息)太多,非常不直观,因此我们希望:1. 将信息压缩,精炼出这些数据的分布信息,如该班中大多数学生年龄集中在哪个点;学生成绩的离散程度。2.用这些数据推测出该班级所在学校学生总体的年龄、性别、成绩等信息。
实际上,这些问题都是典型的统计学问题。问题1是描述统计学的范畴,问题2是推论统计学范畴。在解决问题1的过程中,我们需要用已有信息构造一些式子,即统计量;在解决问题2的过程中,我们需要用这些统计量推测用总体信息算出的某个量,即参数。
统计学的关键在于,总体很难得到,我们能观测到的只有其中的部分样本。如:中国所有人的年龄;某批灯泡使用寿命;某放射性物质固定时间内放射出的粒子数。统计学最初的应用就是在国民经济统计中,由于获得总体经济信息的成本高昂,我们希望只用部分对象(样本)的经济信息,推测整体经济运行情况。总体的精炼信息称为参数,样本的精炼信息称为统计量。参数和统计量都是对原信息的降维,只不过参数无法直接观测,而统计量可以直接观测。
统计量,参数及其关系
从总体中抽到哪些样本实际是一个随机事件,因此样本是一种随机变量,因而由样本信息构造出来的统计量也是一个随机变量,遵循一定概率分布。可以想象,我们反复从总体中抽取某个数量的样本,每次计算一次统计量,最后把这些统计量的频率分布直方图画出来,即在逐步近似该统计量的实际概率分布。不同的总体决定了某个统计量不同的概率分布,因此可以联想到,某些总体的参数应当可以由该概率分布得到。
因此,如果要从样本推断总体,直观思路是重复抽样试验,用频率分布近似统计量的实际概率分布,并用概率分布推出总体参数。因此,我们需要解决的关键问题是:总体参数和样本统计量(概率分布)之间的关系。
因此,大数定律、中心极限定律成为了推论统计学的奠基理论。
衡量数据集中趋势,在统计学中常用的统计量为均值;衡量数据离散程度,常用统计量为方差/标准差。衡量两组变量数据的变化关系(同向/反向)常用协方差,衡量变化关系的大小常用相关系数。
教科书中一般只列出了这些统计量的公式,很少论证它为什么是合理的。因此下文主要阐述这些统计量为何可以满足我们对特定数据关系的要求,它们是如何构造出来的。
均值和方差
衡量一组数据的集中趋势,即这组数据向哪个点集中,我们可以想出很多构造方法。例如,中位数,算数平均数,众数,几何平均数,甚至可以对75%和25%分位数取平均,等等。衡量数据的离散程度,可以用样本与中心点差距的平方和,四次方和等等,中心点可以用上述衡量集中趋势的任一指标度量。如果不考虑其他因素,这些度量方式实际上都是合理的。因为本质上,对于一组数据某种性质的理解更多取决于观察者自身的偏好,况且从信息论的角度,任何一个统计量都是对数据的降维表示,一定损失了某些样本信息,不可能完整准确的体现数据性质。那么为什么在统计中我们通常用均值衡量集中趋势(数据求和再除以样本数量),方差(样本减均值的平方和的均值)衡量离散程度呢?一方面是因为,算数平均数相较于中位数、众数等利用了更多的样本信息,但主要是因为,这些统计量有很多优良性质,可以回应上一部分中推论统计学需要解决的问题,因此在描述统计学中也广为应用。
例如,大数定律表明,样本的算数平均值在n趋向于无穷大时,依概率收敛于总体均值(数学期望)。由于方差与均值的数学关系,可以进一步推得,样本标准差在n趋向于无穷大时,样本的方差(修正后)依概率收敛于总体方差。这就回应了上一部分提出的问题1,即总体参数和样本统计量之间的关系,这也是为什么大数定律很重要。中心极限定理表明,样本均值经总体数学期望、标准差和样本量标准化后,依分布收敛于正态分布,同样也回应了问题1。
协方差
当我们有多组变量的数据时,我们想看这几组变量之间的关系。比如某两个变量之间有没有正相关或者负相关关系。例:x = {1,2,3,4,5};y = {10,9,8,7,6};z = {0,1,2,3,4}。
x
,
y
,
z
x,y,z
x,y,z为同一组样本的不同变量的数据。直观的认为,当两个变量有正相关关系时,当x增加/减小时,多数情况下y和z应当也会增加/减小(不排除少部分样本的数据按相反方向变化)。这里如何给增加/减小找一个参照系?这里就有很多种构造方法,比如以第一个样本为参照系,用其他样本数据都减去第一个样本来度量增加/减小;也可以以全部样本的均值为参照系,用其他样本数据都减去均值。由于前述均值的重要性质,我们采用均值为参照系。标准化后的正数即表示增加,负数即表示减小,全部标准化后的数据令为
x
′
,
y
′
,
z
′
x',y',z'
x′,y′,z′。
如何把x’,y’中每个数据对的同向变化和反向变化区分开?可以采取乘积的性质,同号相乘得正,异号相乘得负,这样每个标准化后的数据对相乘结果再累加。可以看出,同号的数据对越多,累加的结果就更有可能为正,这正符合我们对变量正相关的直观感受。当然,即使n个样本中n-1个数据对都是同向变化,但若某个变量出现1个反向变化的,很大的异常值,也有可能最后得到的结果为负。因此,只能说这样构造出的统计量是一个相对符合直觉的量,而并非对变量关系完全精准的描述。这样,协方差的构造公式可以写成
C
o
v
(
x
,
y
)
=
1
n
∑
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
Cov(x,y)=\frac{1}{n}\sum(x_i- \bar{x})(y_i- \bar{y})
Cov(x,y)=n1∑(xi−xˉ)(yi−yˉ)。注意协方差的大小不能衡量变量之间相关性的大小。很容易举出反例,即使两组数据在n-1个样本上都一模一样,在第n个样本上出现了异常值,协方差也可能比两组看起来就相关性很小但没有异常值的数据结果还小。
我们知道方差公式是
1
n
∑
(
x
i
−
x
ˉ
)
2
\frac{1}{n}\sum(x_i- \bar{x})^2
n1∑(xi−xˉ)2,可以看出,方差可以视为协方差的一种特殊情况,这样更能体现协方差公式的合理性。
相关系数
给定几组数据,我们不仅想知道它们之间是否正相关/负相关,还想知道它们之间相关性的大小。下面给出构造这一度量的2种思考方式。
intuition 1: 向量夹角
设有k个样本的两组变量x,y数据。回想我们对相关性的定义,是数据相对增减趋势之间的关系,因此这里我们可以先对原数据用均值进行标准化,得到标准化后的数据
x
′
,
y
′
x',y'
x′,y′。我们可以将其想象k维空间中的两个从原点出发的向量a,b。直观上我们可以想到,这两个向量之间的夹角可以衡量两组变量之间相关性的大小。若夹角为0或180度,说明两组变量有严格线性关系。夹角越接近0,正线性相关性越大,越接近180度,负线性相关性越大,夹角90度,即正交向量,线性相关性应当最弱。
衡量向量夹角大小可以用余弦定理结合向量运算法则(即余弦相似度):
c
o
s
θ
=
a
b
∣
a
∣
∣
b
∣
=
∑
a
i
b
i
∑
a
i
2
∑
b
i
2
cos\theta=\frac{ab}{|a||b|}=\frac{\sum a_ib_i}{\sqrt{\sum a_i^2}\sqrt{\sum b_i^2}}
cosθ=∣a∣∣b∣ab=∑ai2∑bi2∑aibi。考虑到标准化的步骤,即推导出了相关系数的公式
r
=
∑
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
(
x
i
−
x
ˉ
)
2
∑
(
y
i
−
y
ˉ
)
2
r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}}
r=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)。注意到分子即为n*Cov(x,y),分母为两个标准差相乘,因此r可以进一步化为
r
=
c
o
v
(
x
,
y
)
s
d
(
x
)
s
d
(
y
)
r=\frac{cov(x,y)}{sd(x)sd(y)}
r=sd(x)sd(y)cov(x,y)
intuition 2: OLS回归
对于一元线性模型 y = β 0 + β 1 x y=\beta_0+\beta_1x y=β0+β1x,由OLS方法推导出 β 1 ^ = ∑ ( x i − x ˉ ) ( y i − y ˉ ) ∑ ( x i − x ˉ ) 2 ∑ ( y i − y ˉ ) 2 \hat{\beta_1}=\frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}} β1^=∑(xi−xˉ)2∑(yi−yˉ)2∑(xi−xˉ)(yi−yˉ)。其含义很明显:拟合线的斜率。斜率越接近1或-1,反映y和x线性相关性越强,斜率为0,说明y和x没有线性相关关系(y是一条垂直于x轴的线)。