1.
book.10.1.sav
我选择皮尔逊相关系数,因为从散点图来看生产费用和产量近似可以看做一条直线,而衡量线性相关程度的pearson相关系数=0.920也印证了这一点。
book10.6.sav
我选择斯皮尔曼相关系数,因为从散点图来看不是很接近一条直线,而类似于一条指数函数的曲线,所以不应该是线性关系,同时斯皮尔曼相关系数和肯德尔相关系数都要高于皮尔逊相关系数,所以我选择相关系数最高的spearman相关系数。
2.
X
=
[
x
11
x
12
⋯
x
1
p
x
21
x
22
⋯
x
2
p
⋮
⋮
⋮
x
n
1
x
n
2
⋯
x
n
p
]
X = \left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & \vdots & & \vdots \\ x_{n 1} & x_{n 2} & \cdots & x_{n p} \end{array}\right]
X=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1px2p⋮xnp⎦⎥⎥⎥⎤
X
p
×
n
′
X
n
×
p
=
(
X
′
X
)
p
×
p
X'_{p\times n}X_{n\times p} = (X'X)_{p\times p}
Xp×n′Xn×p=(X′X)p×p
g
p
×
1
g
1
×
p
′
=
(
g
g
′
)
p
×
p
g_{p\times 1}g' _{1\times p} = (gg')_{p\times p}
gp×1g1×p′=(gg′)p×p
X ′ X = [ x 11 x 21 ⋯ x n 1 x 12 x 22 ⋯ x n 2 ⋮ ⋮ ⋮ x 1 p x 2 p ⋯ x n p ] [ x 11 x 12 ⋯ x 1 p x 21 x 22 ⋯ x 2 p ⋮ ⋮ ⋮ x n 1 x n 2 ⋯ x n p ] X'X = \left[\begin{array}{cccc} x_{11} & x_{21} & \cdots & x_{n 1} \\ x_{12} & x_{22} & \cdots & x_{n 2} \\ \vdots & \vdots & & \vdots \\ x_{1 p} & x_{2 p} & \cdots & x_{n p} \end{array}\right]\left[\begin{array}{cccc} x_{11} & x_{12} & \cdots & x_{1 p} \\ x_{21} & x_{22} & \cdots & x_{2 p} \\ \vdots & \vdots & & \vdots \\ x_{n 1} & x_{n 2} & \cdots & x_{n p} \end{array}\right] X′X=⎣⎢⎢⎢⎡x11x12⋮x1px21x22⋮x2p⋯⋯⋯xn1xn2⋮xnp⎦⎥⎥⎥⎤⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1px2p⋮xnp⎦⎥⎥⎥⎤
对于V矩阵对角线上的元素,因为
s
j
2
=
1
n
∑
i
=
1
n
(
x
i
j
−
x
ˉ
j
)
2
=
∑
i
=
1
n
x
i
j
2
−
n
x
ˉ
j
2
n
=
∑
i
=
1
n
x
i
j
2
n
−
x
ˉ
j
2
=
1
n
X
′
X
−
g
g
′
s_j^2= \frac{1}{n}\sum_{i=1}^{n}(x_{ij}-\bar x_j)^2 \\ = \frac{\sum_{i=1}^{n}x_{ij}^2-n\bar x_j^2}{n}\\ = \frac{\sum_{i=1}^{n}x_{ij}^2}{n}-\bar x_j^2\\ = \frac{1}{n}X'X-gg'
sj2=n1i=1∑n(xij−xˉj)2=n∑i=1nxij2−nxˉj2=n∑i=1nxij2−xˉj2=n1X′X−gg′
对于非对角线上的元素
S
i
j
=
1
n
∑
i
=
1
n
(
x
i
j
−
x
‾
j
)
(
x
i
k
−
x
‾
k
)
=
1
n
∑
i
=
1
n
(
x
i
j
x
i
k
−
x
ˉ
j
x
i
k
−
x
ˉ
k
x
i
j
+
x
ˉ
j
x
ˉ
k
)
=
1
n
∑
i
=
1
n
x
i
j
x
i
k
−
x
‾
j
x
‾
k
=
1
n
X
′
X
−
g
g
′
S_{ij}=\dfrac{1}{n}\sum ^{n}_{i=1}\left( x_{ij}-\overline{x}_{j}\right) \left( x_{ik}-\overline{x}_{k}\right)\\ =\frac{1}{n}\sum_{i=1}^n(x_{ij}x_{ik}-\bar x_jx_{ik}-\bar x_kx_{ij}+\bar x_j\bar x_k)\\ = \dfrac{1}{n}\sum ^{n}_{i=1}x_{ij}x_{ik}-\overline{x}_{j}\overline{x}_{k}\\ = \frac{1}{n}X'X-gg'
Sij=n1i=1∑n(xij−xj)(xik−xk)=n1i=1∑n(xijxik−xˉjxik−xˉkxij+xˉjxˉk)=n1i=1∑nxijxik−xjxk=n1X′X−gg′
所以 V = 1 n X ′ X − g g ′ V = \frac{1}{n}X'X- gg' V=n1X′X−gg′成立。
3.
pearson相关系数如果不做标准化处理,结果会受到量纲的影响,所以为了消除量纲的影响做了标准化处理,而这一处理刚好使得相关系数在-1到1之间,且绝对值越大,线性相关关系越强,绝对值越接近0,线性相关关系越弱。使我们判断变量之间的相关关系更加方便。