协方差和相关系数:从一个例子出发

前文

网上关于协方差的介绍很多,写得也都不错。比如:
文章1:协方差的意义
文章2:深入理解协方差
文章3:协方差矩阵的几何解释

前文提过的这里不多写。推荐阅读顺序:文章1 -> 文章2 -> 本文 -> 文章3。

首先对前文加以总结:

  • 协方差与相关性
    • c o v ( X , Y ) > 0 cov(X, Y)>0 cov(X,Y)>0时,表明 X X X Y Y Y 正相关;
    • c o v ( X , Y ) < 0 cov(X, Y)<0 cov(X,Y)<0时,表明 X X X Y Y Y负相关;
    • c o v ( X , Y ) = 0 cov(X, Y)=0 cov(X,Y)=0时,表明 X X X Y Y Y不相关。
  • 两个因素会影响协方差的值:
    • X X X Y Y Y各自的方差不变时, X X X Y Y Y的正相关性越强烈, c o v ( X , Y ) cov(X, Y) cov(X,Y)越大, X X X Y Y Y的负相关性越强烈, c o v ( X , Y ) cov(X, Y) cov(X,Y)
    • X X X Y Y Y的相关性不变时, X X X Y Y Y的方差越大,协方差的绝对值越大。
  • 相关系数 ρ X Y = c o v ( X , Y ) σ X σ Y ∈ [ − 1 , 1 ] \rho_{XY}=\frac{cov(X,Y)}{\sqrt{\sigma_X}\sqrt{\sigma_Y}}\in[-1,1] ρXY=σX σY cov(X,Y)[1,1]
    • 如果 ρ X Y = 0 \rho_{XY}=0 ρXY=0,说明 X X X Y Y Y不相关。
    • 如果 ρ X Y = 1 \rho_{XY}=1 ρXY=1 ρ X Y = − 1 \rho_{XY}=-1 ρXY=1,说明 X X X Y Y Y呈线性关系,即 Y = a X + b Y=aX+b Y=aX+b(假设 X X X Y Y Y都是一维数据。)若 a a a为正数则 ρ X Y = 1 \rho_{XY}=1 ρXY=1,若 a a a为负数则 ρ X Y = − 1 \rho_{XY}=-1 ρXY=1

举个例子

假设我要斜着往左前方走。我每次向前迈一步,然后再向左迈一步。每一次我都争取做到向前那一步迈0.75米,向左那一步大迈0.5米。向前一步的误差(标准差)大约0.15米,向左一步的误差为0.1米。假设误差服从正太分布,前后方向为 x x x方向,左右方向为 y y y方向,那么我第 k k k次移动后的位置 ( x k , y k ) (x_k,y_k) (xk,yk)为:
{ x k = x k − 1 + 0.75 + q k x q k x ∼ N ( 0 , 0.1 5 2 ) y k = y k − 1 + 0.5 + q k y q k x ∼ N ( 0 , 0. 1 2 ) \begin{cases} x_k&=x_{k-1}+0.75+q^x_k \quad &q^x_k \sim \mathcal{N}(0,0.15^2) \\ y_k&=y_{k-1}+0.5+q^y_{k} \quad &q^x_k \sim \mathcal{N}(0,0.1^2) \end{cases} {xkyk=xk1+0.75+qkx=yk1+0.5+qkyqkxN(0,0.152)qkxN(0,0.12)

这还没完,因为我知道 q k x q^x_k qkx q k y q^y_k qky并不是独立的。如果我向前那一步迈大了一点,很有可能我向左那一步也会迈大。换句话说, q k x q^x_k qkx q k y q^y_k qky正相关。假设相关系数为 ρ = 0.7 \rho=0.7 ρ=0.7。则协方差 c o v ( X , Y ) = 0.7 × 0.15 × 0.1 = 0.0105 ‬ cov(X,Y)=0.7\times0.15\times0.1=0.0105‬ cov(X,Y)=0.7×0.15×0.1=0.0105

进一步理解相关系数

那么,这个相关系数0.7到底是什么意思呢?我们来从图形上看。下图中的所有小图,横坐标为x轴,其范围为 [ − 4 , 4 ] [-4,4] [4,4]。纵坐标为y轴,其范围为 [ − 10 , 10 ] [-10,10] [10,10]。所有小图中, X X X Y Y Y均服从正太分布,且其期望 μ x = μ y = 0 \mu_x=\mu_y=0 μx=μy=0 X X X的方差 σ x 2 = 1 \sigma^2_x=1 σx2=1。每个小图中有1000个随机采样点。每个小图不一样的是 Y Y Y的方差 σ y 2 \sigma^2_y σy2和相关系数 ρ \rho ρ。每一行的 σ y 2 \sigma^2_y σy2相同,其值标于左侧。每一列的相关系数 ρ \rho ρ相同,其值标于上方。
协方差与相关系数
从上图中可以看出,图形在 X X X方向的跨度,是由 σ x 2 \sigma^2_x σx2决定的。图形在 Y Y Y方向的跨度,是由 σ y 2 \sigma^2_y σy2决定的。 ρ \rho ρ决定了图形的“厚度”。 ρ \rho ρ越大,图形越细。图形细说明当 x x x y y y其中的一个值给定时,另一个变量的方差会减少,也就是其不确定性会减少。如果 ρ = 1 \rho=1 ρ=1,其图形就是一条直线。也就是说,知道一点的 x x x的值时,也就知道了这一点的 y y y的值。以上图右下角的小图为例( σ y 2 = 10 , ρ = 0.9 \sigma^2_y=10, \rho=0.9 σy2=10,ρ=0.9),当 x x x的值未知时, σ y 2 = 10 \sigma^2_y=10 σy2=10但如果我们知道了一个采样点的 x x x值,比如说 x = 3 x=3 x=3,那么该采样点的 y y y值的分布的方差 σ y ∣ x = 3 2 < 10 \sigma^2_{y|x=3}<10 σyx=32<10 那这个值究竟等于多少呢?留给下一篇文章来讨论吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值