统计学基础快速入门

一、随机变量与状态空间 (Stochastic Variables and State Space)

随机变量是状态空间中取的定值:
例如:硬币:状态空间: { ′ H ′ , ′ T ′ } \{'H', 'T'\} {H,T}
例如:骰子:状态空间: { ′ 1 ′ , ′ 2 ′ , ′ 3 ′ , ′ 4 ′ , ′ 5 ′ , ′ 6 ′ } \{'1','2','3','4','5','6'\} {1,2,3,4,5,6}
在这里插入图片描述

对于以上状态空间,一般情况下使用 数字表示 (numerical representations):
例如:使用 0 , 1 {0,1} 0,1表示 H (head) 和 T (tails) 或者 ‘0’ 和 ‘1’。

数字表示在算法中非常重要,但是不要忘记这些数字表示的是真实世界的结构。

  • X = ′ T ′ X='T' X=T 意味着我们观察了一个事件(event)或者记录了一个随机过程的结果(output),决定了我们随机变量的值。
  • 经常使用拉丁大写字母表示随机变量
  • 我们给结果(output) 分配概率: P ( X = ′ T ′ ) = 0.5 P(X='T')=0.5 P(X=T)=0.5
  • X X X 随机变量 表示一个实验的观察结果:‘我们抛一枚硬币’
  • ′ T ′ 'T' T 表示一个可能的结果,它必须是状态空间中的元素,比如’tails’是集合 { ′ h e a d s ′ , ′ t a i l s ′ } \{'heads','tails'\} {heads,tails} 中可能出现的元素。
  • 结果是相互排斥的(mutually exclusive)
  • 原则上,状态空间上的每一个元素都可能是一个结果
  • 我们表示结果 i i i概率(probability) 为 P i P_i Pi
    0 ≤ P i ≤ 1 0\le P_i\le 1 0Pi1 - 每个结果概率都处在0-1之间,并且包括两边。
    ∑ i P i = 1 \sum_i P_i=1 iPi=1 - 每个结果概率的总和为 1。
    加法法则(Sum rule):互斥事件的总概率等于各事件概率之和 P a + P b P_a + P_b Pa+Pb

二、什么是概率?频率学派与贝叶斯学派 (Frequentist vs Bayesian )

1、频率学派 - Frequentist

  • 概率是在大量相同的实验中做出的估计,就像抛硬币,正反面都为0.5这就是频率
  • 不需要事先相信
  • 假设任何实验都是可重复的(repearable),但这通常是有问题的,很难做到有完全相同的实验
  • 会导致参数的有偏估计(biased estimates)
  • 频率学派似乎在高中教学中最受欢迎

2、贝叶斯学派 - Bayesian

  • 概率表达了一种主观的信仰程度(a subjective degree of belief),通过 0 ≤ p ≤ 1 0\le p\le 1 0p1量化表示。
  • 需要一个先验信念(prior belief):参数的概率分布。
  • 在数据面前,先验概率(prior probabilities)被调整为后验(posterior)
  • 后验概率分布更窄,更接近“真”值
  • 能在不允许重复的实验中量化概率
  • 没有选择先验的系统方法

三、离散型分布 - Discrete Distributions

伯努利分布、二项分布以及多项分布 (zhihu)
R统计学(01): 伯努利分布、二项分布
Bernoulli distribution (wikipedia)
Binomial distribution (wikipedia)


1、期望值、方差(Expectation values, Variance)

如果在一个离散的状态空间中定义函数 f ( x ) f(x) f(x),例如:对于状态空间中的每一个 x i x_i xi 我们有 f ( x i ) f(x_i) f(xi),于是期望值(expectation value)是:
E [ f ] = ∑ i P ( x i ) f ( x i ) \begin{aligned}E[f]=\sum_i P(x_i)f(x_i)\end{aligned} E[f]=iP(xi)f(xi)
即每个结果发生的概率 × \times ×结果的值,将其总和得到的就是期望值

这个方差是:
v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] \begin{aligned}var[f]=E[(f(x)-E[f(x)])^2]\end{aligned} var[f]=E[(f(x)E[f(x)])2]

同时也可以写成:
v a r [ f ] = E [ f ( x ) 2 ] − E 2 [ f ( x ) ] ] \begin{aligned}var[f]=E[f(x)^2]-E^2[f(x)]]\end{aligned} var[f]=E[f(x)2]E2[f(x)]]


2、伯努利分布 Bernoulli

在这里插入图片描述

  • 数据点 x i x_i xi i ∈ { 1 , . . . , N } i\in\{1, ..., N\} i{1,...,N}
  • x i ∈ { 0 , 1 } x_i\in\{0,1\} xi{0,1},只有两个结果。

B e r ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x , 0 ≤ μ ≤ 1 Ber(x|\mu)=\mu^x(1-\mu)^{1-x},0\le\mu\le 1 Ber(xμ)=μx(1μ)1x,0μ1

这里只有两个概率:

  1. x = 0 : B e r ( x ∣ μ ) = ( 1 − μ ) x=0: Ber(x|\mu)=(1-\mu) x=0:Ber(xμ)=(1μ)
  2. x = 1 : B e r ( x ∣ μ ) = μ x=1: Ber(x|\mu)=\mu x=1:Ber(xμ)=μ

这正是我们对一枚有偏见的(biased)硬币所期望的。期望:
E [ x ] = ∑ i P ( x i ) f ( x i ) = 0 × ( 1 − μ ) + 1 × μ = μ E[x]=\sum_i P(x_i)f(x_i)=0\times(1-\mu)+1\times\mu=\mu E[x]=iP(xi)f(xi)=0×(1μ)+1×μ=μ
v a r [ x ] = E [ f ( x ) 2 ] − E 2 [ f ( x ) ] ] = μ − μ 2 = μ ( 1 − μ ) var[x]=E[f(x)^2]-E^2[f(x)]]=\mu-\mu^2=\mu(1-\mu) var[x]=E[f(x)2]E2[f(x)]]=μμ2=μ(1μ)


3、二项分布(随机漫步) - Binomial - AKA Random Walk

随机漫步 (baike)
二项分布是 N N N次伯努利分布实验的概率分布
在这里插入图片描述

B i n ( m , N ∣ μ ) = ( N m ) μ m ( 1 − μ ) N − m Bin(m,N|\mu)=\binom{N}{m}\mu^m(1-\mu)^{N-m} Bin(m,Nμ)=(mN)μm(1μ)Nm
这里:
( N m ) = C N m = N ! ( N − m ) ! m ! \binom{N}{m}=C^m_N=\frac{N!}{(N-m)!m!} (mN)=CNm=(Nm)!m!N!

  • 遵从伯努利实验
  • 总共 N N N
  • 向右 m m m 步的概率,向左 N − m N-m Nm 步的概率:
    μ m ( 1 − μ ) N − m \mu^m(1-\mu)^{N-m} μm(1μ)Nm

E [ x ] = n ∑ i P ( x i ) f ( x i ) = n ( 0 × ( 1 − μ ) + 1 × μ ) = n μ E[x]=n\sum_i P(x_i)f(x_i)=n(0\times(1-\mu)+1\times\mu)=n\mu E[x]=niP(xi)f(xi)=n(0×(1μ)+1×μ)=nμ
v a r [ x ] = n ( E [ f ( x ) 2 ] − E 2 [ f ( x ) ] ] ) = n ( μ − μ 2 ) = n μ ( 1 − μ ) var[x]=n(E[f(x)^2]-E^2[f(x)]])=n(\mu-\mu^2)=n\mu(1-\mu) var[x]=n(E[f(x)2]E2[f(x)]])=n(μμ2)=nμ(1μ)

( N m ) 个 方 法 到 达 m \binom{N}{m}个方法到达m (mN)m


四、连续型分布 - Continuous Distributions

1、概率密度函数 - Probability Density Function

通过面积积分求概率
如何通俗的理解概率密度函数?(zhihu)
在这里插入图片描述

  • 在区间 I I I 内有 ∫ a b f ( x ) d x = 1 \int_a^b f(x)dx=1 abf(x)dx=1,这里 I = ( a , b ) , [ a , b ) , ( a , b ] , [ a , b ] I=(a,b),[a,b),(a,b],[a,b] I=(a,b),[a,b),(a,b],[a,b]
  • 对于 I I I 的每个子区间 I 0 I_0 I0 0 ≤ ∫ I 0 f ( x ) d x ≤ 1 0\le\int_{I_0}f(x)dx\le 1 0I0f(x)dx1
  • 从负无穷到正无穷对f(x)积分面积始终为1
  • x ∈ I , f ( x ) < 1 x\in I, f(x)\lt 1 xI,f(x)<1

P ( x ) P(x) P(x) 在区间 I = [ a , b ] I=[a,b] I=[a,b]内,函数 f ( x ) f(x) f(x)期望(Expecration) 为:
E [ f ( x ) ] = ∫ a b f ( x ) P ( x ) d x E[f(x)]=\int_a^bf(x)P(x)dx E[f(x)]=abf(x)P(x)dx
方差(Variance)为:
v a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] var[f(x)]=E[(f(x)-E[f(x)])^2] var[f(x)]=E[(f(x)E[f(x)])2]


2、均匀分布 - Uniform Distribution

均匀分布 (baike)
Continuous uniform distribution (wikipedia)
在这里插入图片描述

  • 每个实数的概率都是0
  • 某区间的一些数是被定义好的
  • 模拟:机器精度高,所以在某种程度上离散
  • 均匀分布是模拟其他分布的基础
  • 如果 x i x_i xi 是均匀分布的,那么 f ( x i ) f(x_i) f(xi) 就不是
  • f ( x ) f(x) f(x) 非线性
  • 仿真的质量取决于伪随机发生器的质量
  • 种子(seed)初始化模拟:再现性(reproducibility)

3、高斯分布(正态分布) - Gaussian/Normal Distribution

在这里插入图片描述

  • 经常出现在自然中,例如:身高,IQ
  • 任意分布的定长和服从近似高斯分布:中心极限定理(central limit theorem)。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。
  • μ : \mu: μ:中心的位置; σ : \sigma: σ: 分布的宽度
    N ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e − 1 2 σ 2 ( x − μ ) 2 \begin{aligned}N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\end{aligned} N(xμ,σ2)=2πσ2 1e2σ21(xμ)2
    E [ N ( x ∣ μ , σ 2 ) ] = μ \begin{aligned}E[N(x|\mu,\sigma^2)]=\mu\end{aligned} E[N(xμ,σ2)]=μ
    v a r [ N ( x ∣ μ , σ 2 ) ] = σ 2 \begin{aligned}var[N(x|\mu,\sigma^2)]=\sigma^2\end{aligned} var[N(xμ,σ2)]=σ2

中心极限定理 (baike)
Central limit theorem (wikipedia)


五、似然与概率 - Likelihood vs Probability

概率(probability)、似然(likelihood)、极大似然法 (sina)
如何理解似然函数? (zhihu)


1、伯努利过程 - Bernoulli Process

在这里插入图片描述

  • 有一系列来自伯努利过程的数据点: x 1 = ′ H ′ , x 2 = ′ T ′ , x 3 = ′ T ′ x_1='H',x_2='T',x_3='T' x1=H,x2=T,x3=T
  • 如果我们假设 μ \mu μ 已知,实现这些特定数据点的概率为:
    ( 1 − μ ) μ 2 = B e r ( x = 0 ∣ μ ) B e r ( x = 1 ∣ μ ) B e r ( x = 1 ∣ μ ) (1-\mu)\mu^2=Ber(x=0|\mu)Ber(x=1|\mu)Ber(x=1|\mu) (1μ)μ2=Ber(x=0μ)Ber(x=1μ)Ber(x=1μ)
  • 如果我们不知道 μ \mu μ 然后考虑 μ \mu μ质量函数(quantity function),我们叫它为似然(likelihood)

2、推论:极大似然估计 - Inference:Maximum Likelihood Estimation (MLE)

  • 给定一个观测值序列:‘HTTTHHHTTTTHHHT’,我们如何求出 μ \mu μ,即硬币正面的概率?(如果硬币不均匀,有其他因素影响使得正面不是0.5,0.3? 或者 0.8?)
  • 策略:写下观测值的似然,那么最大的似然记为 μ \mu μ
  • 这个方法就叫做极大似然估计(Maximum Likelihood Estimation)
  • 观察伯努利中的事件是独立同分布的(independently identically distributed, idd)
  • 这意味着你可以将观察结果按任何顺序重新排列,而不会影响似然。


  • 假设’H’有7次,'T’有8次,似然函数为 μ 7 ( 1 − μ ) 8 \mu^7(1-\mu)^8 μ7(1μ)8,‘H’=1,‘T’=0。一般情况下:
    P ( D ∣ μ ) = μ N 1 ( 1 − μ ) N − N 1 P(D|\mu)=\mu^{N_1}(1-\mu)^{N-N_1} P(Dμ)=μN1(1μ)NN1
  • N : N: N 为总观测值。 N 1 N_1 N1 H H H 的观测值。
  • 需要最大化 μ \mu μ


有很好的理由考虑对数似然(the logarithm likelihood)

  1. μ \mu μ 出现在指数(exponents)中,使用对数(logarithm) 可以简化。
  2. 极小数的对数是负数,但却是“正常”数

ln ⁡ P ( D ∣ μ ) = N 1 ln ⁡ μ + ( N − N 1 ) l n ( 1 − μ ) \ln P(D|\mu)=N_1\ln\mu+(N-N1)ln(1-\mu) lnP(Dμ)=N1lnμ+(NN1)ln(1μ)

寻找能最大化似然 μ \mu μ 值,记为 μ M L \mu_{ML} μML:
d ln ⁡ P ( D ∣ μ ) d μ ∣ μ = μ M L = 0 \begin{aligned}\frac{d\ln P(D|\mu)}{d\mu}|_{\mu=\mu_{ML}}=0\end{aligned} dμdlnP(Dμ)μ=μML=0
结果是:
N 1 μ M L − N − N 1 1 − μ M L = 0 \begin{aligned}\frac{N_1}{\mu_{ML}}-\frac{N-N_1}{1-\mu_{ML}}=0\end{aligned} μMLN11μMLNN1=0
求解 μ \mu μ
μ M L = N 1 N \begin{aligned}\mu_{ML}=\frac{N_1}{N}\end{aligned} μML=NN1

  • 稍后我们将看到MLE容易出现过拟合(overfitting)

六、联合概率 - Joint Probabilities

1、两个骰子 - Two Dice

在这里插入图片描述

在这里插入图片描述

2、自变量/独立变量 - Independent Variables

  • 表:两个向量**张量(tensor)**的乘积
    P 1 = ( 0.17 , 0.18 , 0.15 , 0.14 , 0.16 , 0.2 ) P_1=(0.17,0.18,0.15,0.14,0.16,0.2) P1=(0.17,0.18,0.15,0.14,0.16,0.2)
    P 2 = ( 0.166 , 0.166 , 0.166 , 0.168 , 0.168 , 0.166 ) P_2=(0.166,0.166,0.166,0.168,0.168,0.166) P2=(0.166,0.166,0.166,0.168,0.168,0.166)
  • 独立状态空间: 6 6 6 个元素
  • 联合状态空间: 6 2 6^2 62 维度灾难(curse of dimensionality)
  • 表是不对称的(asymmetric)
  • 但是独立显示:
    P ( X 1 = ′ i ′ , X 2 = ′ j ′ ) = P ( X 1 = ′ i ′ ) P ( X 2 = ′ j ′ ) P(X_1='i',X_2='j')=P(X_1='i')P(X_2='j') P(X1=i,X2=j)=P(X1=i)P(X2=j)

七、边际概率 - Marginal Probability

联合概率、边际概率、条件概率
在这里插入图片描述
P ( x ) = ∑ Y P ( X , Y ) P(x)=\sum_Y P(X,Y) P(x)=YP(X,Y)

所有元素 Y Y Y 上的总和。简写为:
P ( X = 1 ) = ∑ b ∈ S y P ( X = a , Y = b ) P(X=1)=\sum_{b\in S_y}P(X=a,Y=b) P(X=1)=bSyP(X=a,Y=b)
这里 S y S_y Sy样本空间中的随机变量 Y Y Y

  1. 不可能从边缘(marginals)重建联合概率分布(joint probability distribution)。**边缘化(marginalisation)**通常构成信息的重大损失。
  2. 例外:独立
  3. 边缘化是困难的。虽然只是对列或者行求和,但是会有维度灾难

八、条件概率 - Conditional Probability

在这里插入图片描述

P ( Y = y i ∣ X = ′ Z ′ ) ≡ P ( X = ′ Z ′ , Y = y i ) P ( X = ′ Z ′ ) \begin{aligned}P(Y=y_i|X='Z')\equiv\frac{P(X='Z',Y=y_i)}{P(X='Z')}\end{aligned} P(Y=yiX=Z)P(X=Z)P(X=Z,Y=yi)


九、求和法则与乘积法则 - Sum and Product Rule

求和法则 - the sum rule:
P ( X ) = ∑ Y P ( X , Y ) P(X)=\sum_YP(X,Y) P(X)=YP(X,Y)
乘积法则 - the product rule:
P ( X , Y ) = P ( Y ∣ X ) P ( X ) P(X,Y)=P(Y|X)P(X) P(X,Y)=P(YX)P(X)


十、贝叶斯定理 - Bayes’ Rule/Law/Theorem

乘积法则有两种写法:
P ( X , Y ) = P ( Y ∣ X ) P ( X ) P(X,Y)=P(Y|X)P(X) P(X,Y)=P(YX)P(X)
P ( X , Y ) = P ( X ∣ Y ) P ( Y ) P(X,Y)=P(X|Y)P(Y) P(X,Y)=P(XY)P(Y)

继续分解(decompositions)
P ( X ∣ Y ) = P ( Y ∣ X ) P ( Y ) P ( X ) \begin{aligned}P(X|Y)=\frac{P(Y|X)}{P(Y)}P(X)\end{aligned} P(XY)=P(Y)P(YX)P(X)

或者使用求和法则
P ( X ∣ Y ) = P ( Y ∣ X ) ∑ X P ( Y ∣ X ) P ( X ) P ( X ) \begin{aligned}P(X|Y)=\frac{P(Y|X)}{\sum_XP(Y|X)P(X)}P(X)\end{aligned} P(XY)=XP(YX)P(X)P(YX)P(X)

修改时间

2022/2/1

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值