导读:通常我们使用方差、标准差来度量一组数据的离散程度,但是如果想要度量单个变量在一组数据中的相对离散位置,我们则会使用Z
score也称 标准分数 Standard score来衡量。
Z i = x i − x ˉ s Z_i=\frac{x_i-\bar x}{s} Zi=sxi−xˉ
下面,通过公式的推导来论证一下使用“Z score”来标记相对位置的合理性和逻辑性。
1 z score构成的数据集合为什么均值为0
假设现有一组数据
x
1
,
x
2
,
.
.
.
.
x
n
{x_1,x_2,....x_n}
x1,x2,....xn,其均值为
x
ˉ
\bar x
xˉ,方差为s,那么单个数据点
x
1
x_1
x1的z score就是
Z
1
=
x
1
−
x
ˉ
s
Z_1=\frac{x_1-\bar x}{s}
Z1=sx1−xˉ
如果将所有的
Z
1
,
Z
2
.
.
.
Z
n
Z_1,Z_2...Z_n
Z1,Z2...Zn来求均值可以得:
Z
ˉ
=
Z
1
+
Z
2
+
.
.
.
+
Z
n
n
=
x
1
−
x
ˉ
s
+
x
2
−
x
ˉ
s
+
.
.
.
+
x
n
−
x
ˉ
s
n
=
x
1
+
x
2
+
.
.
.
+
x
n
−
n
x
ˉ
n
s
\bar Z=\frac {Z_1+Z_2+...+Z_n}{n}=\frac{\frac{x_1-\bar x}{s}+\frac{x_2-\bar x}{s}+...+\frac{x_n-\bar x}{s}}{n}=\frac{x_1+x_2+...+x_n-n\bar x}{ns}
Zˉ=nZ1+Z2+...+Zn=nsx1−xˉ+sx2−xˉ+...+sxn−xˉ=nsx1+x2+...+xn−nxˉ
而又有:
n
x
ˉ
=
n
∗
x
1
+
x
2
+
.
.
.
+
x
n
n
n\bar x=n*\frac{x_1+x_2+...+x_n}{n}
nxˉ=n∗nx1+x2+...+xn
因此:
Z
ˉ
=
0
\bar Z=0
Zˉ=0
2 z score构成的数据集合为什么方差为1
同样的一组数
x
1
,
x
2
,
.
.
.
.
x
n
{x_1,x_2,....x_n}
x1,x2,....xn,其均值为
x
ˉ
\bar x
xˉ,方差为s,那么单个数据点
x
1
x_1
x1的z score就是
Z
1
=
x
1
−
x
ˉ
s
Z_1=\frac{x_1-\bar x}{s}
Z1=sx1−xˉ
其方差为:
s
z
2
=
∑
i
=
1
n
(
z
i
−
z
ˉ
)
2
n
s_z^2=\frac{\sum_{i=1}^{n}(z_i-\bar z)^2}{n}
sz2=n∑i=1n(zi−zˉ)2
其中
z
ˉ
=
0
\bar z=0
zˉ=0,因此其方差为:
s
z
2
=
∑
i
=
1
n
(
z
i
)
2
n
=
(
x
1
−
x
ˉ
s
)
2
+
(
x
2
−
x
ˉ
s
)
2
+
.
.
.
+
.
.
.
(
x
n
−
x
ˉ
s
)
2
n
=
(
x
1
−
x
ˉ
)
2
+
(
x
2
−
x
ˉ
)
2
+
.
.
.
+
(
x
n
−
x
ˉ
)
2
n
s
2
=
∑
i
n
(
x
i
−
x
ˉ
)
n
s
2
s _z^2=\frac{\sum_{i=1}^{n}(z_i)^2}{n}=\frac{(\frac{x_1-\bar x}{s})^2+(\frac{x_2-\bar x}{s})^2+...+...(\frac{x_n-\bar x}{s})^2}{n}=\frac{(x_1-\bar x)^2+(x_2-\bar x)^2+...+(x_n-\bar x)^2}{ns^2}=\frac{\sum_i^n(x_i-\bar x)}{ns^2}
sz2=n∑i=1n(zi)2=n(sx1−xˉ)2+(sx2−xˉ)2+...+...(sxn−xˉ)2=ns2(x1−xˉ)2+(x2−xˉ)2+...+(xn−xˉ)2=ns2∑in(xi−xˉ)
其中:
∑
i
n
(
x
i
−
x
ˉ
)
n
=
s
2
\frac{\sum_i^n(x_i-\bar x)}{n}=s^2
n∑in(xi−xˉ)=s2
所以有
s
z
2
=
s
2
∗
1
s
2
=
1
s _z^2=s^2*\frac{1}{s^2}=1
sz2=s2∗s21=1