统计学基础快速入门
- 一、随机变量与状态空间 (Stochastic Variables and State Space)
- 二、什么是概率?频率学派与贝叶斯学派 (Frequentist vs Bayesian )
- 三、离散型分布 - Discrete Distributions
- 四、连续型分布 - Continuous Distributions
- 五、似然与概率 - Likelihood vs Probability
- 六、联合概率 - Joint Probabilities
- 七、边际概率 - Marginal Probability
- 八、条件概率 - Conditional Probability
- 九、求和法则与乘积法则 - Sum and Product Rule
- 十、贝叶斯定理 - Bayes' Rule/Law/Theorem
- 修改时间
一、随机变量与状态空间 (Stochastic Variables and State Space)
随机变量是状态空间中取的定值:
例如:硬币:状态空间:
{
′
H
′
,
′
T
′
}
\{'H', 'T'\}
{′H′,′T′}
例如:骰子:状态空间:
{
′
1
′
,
′
2
′
,
′
3
′
,
′
4
′
,
′
5
′
,
′
6
′
}
\{'1','2','3','4','5','6'\}
{′1′,′2′,′3′,′4′,′5′,′6′}
对于以上状态空间,一般情况下使用 数字表示 (numerical representations):
例如:使用
0
,
1
{0,1}
0,1表示 H (head) 和 T (tails) 或者 ‘0’ 和 ‘1’。
数字表示在算法中非常重要,但是不要忘记这些数字表示的是真实世界的结构。
- X = ′ T ′ X='T' X=′T′ 意味着我们观察了一个事件(event)或者记录了一个随机过程的结果(output),决定了我们随机变量的值。
- 经常使用拉丁大写字母表示随机变量
- 我们给结果(output) 分配概率: P ( X = ′ T ′ ) = 0.5 P(X='T')=0.5 P(X=′T′)=0.5
- X X X 随机变量 表示一个实验的观察结果:‘我们抛一枚硬币’
- ′ T ′ 'T' ′T′ 表示一个可能的结果,它必须是状态空间中的元素,比如’tails’是集合 { ′ h e a d s ′ , ′ t a i l s ′ } \{'heads','tails'\} {′heads′,′tails′} 中可能出现的元素。
- 结果是相互排斥的(mutually exclusive)
- 原则上,状态空间上的每一个元素都可能是一个结果
- 我们表示结果
i
i
i 的概率(probability) 为
P
i
P_i
Pi
0 ≤ P i ≤ 1 0\le P_i\le 1 0≤Pi≤1 - 每个结果概率都处在0-1之间,并且包括两边。
∑ i P i = 1 \sum_i P_i=1 ∑iPi=1 - 每个结果概率的总和为 1。
加法法则(Sum rule):互斥事件的总概率等于各事件概率之和 P a + P b P_a + P_b Pa+Pb
二、什么是概率?频率学派与贝叶斯学派 (Frequentist vs Bayesian )
1、频率学派 - Frequentist
- 概率是在大量相同的实验中做出的估计,就像抛硬币,正反面都为0.5这就是频率
- 不需要事先相信
- 假设任何实验都是可重复的(repearable),但这通常是有问题的,很难做到有完全相同的实验
- 会导致参数的有偏估计(biased estimates)
- 频率学派似乎在高中教学中最受欢迎
2、贝叶斯学派 - Bayesian
- 概率表达了一种主观的信仰程度(a subjective degree of belief),通过 0 ≤ p ≤ 1 0\le p\le 1 0≤p≤1量化表示。
- 需要一个先验信念(prior belief):参数的概率分布。
- 在数据面前,先验概率(prior probabilities)被调整为后验(posterior)
- 后验概率分布更窄,更接近“真”值
- 能在不允许重复的实验中量化概率
- 没有选择先验的系统方法
三、离散型分布 - Discrete Distributions
伯努利分布、二项分布以及多项分布 (zhihu)
R统计学(01): 伯努利分布、二项分布
Bernoulli distribution (wikipedia)
Binomial distribution (wikipedia)
1、期望值、方差(Expectation values, Variance)
如果在一个离散的状态空间中定义函数
f
(
x
)
f(x)
f(x),例如:对于状态空间中的每一个
x
i
x_i
xi 我们有
f
(
x
i
)
f(x_i)
f(xi),于是期望值(expectation value)是:
E
[
f
]
=
∑
i
P
(
x
i
)
f
(
x
i
)
\begin{aligned}E[f]=\sum_i P(x_i)f(x_i)\end{aligned}
E[f]=i∑P(xi)f(xi)
即每个结果发生的概率
×
\times
× 该结果的值,将其总和得到的就是期望值。
这个方差是:
v
a
r
[
f
]
=
E
[
(
f
(
x
)
−
E
[
f
(
x
)
]
)
2
]
\begin{aligned}var[f]=E[(f(x)-E[f(x)])^2]\end{aligned}
var[f]=E[(f(x)−E[f(x)])2]
同时也可以写成:
v
a
r
[
f
]
=
E
[
f
(
x
)
2
]
−
E
2
[
f
(
x
)
]
]
\begin{aligned}var[f]=E[f(x)^2]-E^2[f(x)]]\end{aligned}
var[f]=E[f(x)2]−E2[f(x)]]
2、伯努利分布 Bernoulli
- 数据点 x i x_i xi, i ∈ { 1 , . . . , N } i\in\{1, ..., N\} i∈{1,...,N}
- x i ∈ { 0 , 1 } x_i\in\{0,1\} xi∈{0,1},只有两个结果。
B e r ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x , 0 ≤ μ ≤ 1 Ber(x|\mu)=\mu^x(1-\mu)^{1-x},0\le\mu\le 1 Ber(x∣μ)=μx(1−μ)1−x,0≤μ≤1
这里只有两个概率:
- x = 0 : B e r ( x ∣ μ ) = ( 1 − μ ) x=0: Ber(x|\mu)=(1-\mu) x=0:Ber(x∣μ)=(1−μ)
- x = 1 : B e r ( x ∣ μ ) = μ x=1: Ber(x|\mu)=\mu x=1:Ber(x∣μ)=μ
这正是我们对一枚有偏见的(biased)硬币所期望的。期望:
E
[
x
]
=
∑
i
P
(
x
i
)
f
(
x
i
)
=
0
×
(
1
−
μ
)
+
1
×
μ
=
μ
E[x]=\sum_i P(x_i)f(x_i)=0\times(1-\mu)+1\times\mu=\mu
E[x]=i∑P(xi)f(xi)=0×(1−μ)+1×μ=μ
v
a
r
[
x
]
=
E
[
f
(
x
)
2
]
−
E
2
[
f
(
x
)
]
]
=
μ
−
μ
2
=
μ
(
1
−
μ
)
var[x]=E[f(x)^2]-E^2[f(x)]]=\mu-\mu^2=\mu(1-\mu)
var[x]=E[f(x)2]−E2[f(x)]]=μ−μ2=μ(1−μ)
3、二项分布(随机漫步) - Binomial - AKA Random Walk
随机漫步 (baike)
二项分布是
N
N
N次伯努利分布实验的概率分布
B
i
n
(
m
,
N
∣
μ
)
=
(
N
m
)
μ
m
(
1
−
μ
)
N
−
m
Bin(m,N|\mu)=\binom{N}{m}\mu^m(1-\mu)^{N-m}
Bin(m,N∣μ)=(mN)μm(1−μ)N−m
这里:
(
N
m
)
=
C
N
m
=
N
!
(
N
−
m
)
!
m
!
\binom{N}{m}=C^m_N=\frac{N!}{(N-m)!m!}
(mN)=CNm=(N−m)!m!N!
- 遵从伯努利实验
- 总共 N N N 步
- 向右
m
m
m 步的概率,向左
N
−
m
N-m
N−m 步的概率:
μ m ( 1 − μ ) N − m \mu^m(1-\mu)^{N-m} μm(1−μ)N−m
E
[
x
]
=
n
∑
i
P
(
x
i
)
f
(
x
i
)
=
n
(
0
×
(
1
−
μ
)
+
1
×
μ
)
=
n
μ
E[x]=n\sum_i P(x_i)f(x_i)=n(0\times(1-\mu)+1\times\mu)=n\mu
E[x]=ni∑P(xi)f(xi)=n(0×(1−μ)+1×μ)=nμ
v
a
r
[
x
]
=
n
(
E
[
f
(
x
)
2
]
−
E
2
[
f
(
x
)
]
]
)
=
n
(
μ
−
μ
2
)
=
n
μ
(
1
−
μ
)
var[x]=n(E[f(x)^2]-E^2[f(x)]])=n(\mu-\mu^2)=n\mu(1-\mu)
var[x]=n(E[f(x)2]−E2[f(x)]])=n(μ−μ2)=nμ(1−μ)
( N m ) 个 方 法 到 达 m \binom{N}{m}个方法到达m (mN)个方法到达m
四、连续型分布 - Continuous Distributions
1、概率密度函数 - Probability Density Function
通过面积积分求概率
如何通俗的理解概率密度函数?(zhihu)
- 在区间 I I I 内有 ∫ a b f ( x ) d x = 1 \int_a^b f(x)dx=1 ∫abf(x)dx=1,这里 I = ( a , b ) , [ a , b ) , ( a , b ] , [ a , b ] I=(a,b),[a,b),(a,b],[a,b] I=(a,b),[a,b),(a,b],[a,b]
- 对于 I I I 的每个子区间 I 0 I_0 I0, 0 ≤ ∫ I 0 f ( x ) d x ≤ 1 0\le\int_{I_0}f(x)dx\le 1 0≤∫I0f(x)dx≤1
- 从负无穷到正无穷对f(x)积分面积始终为1
- x ∈ I , f ( x ) < 1 x\in I, f(x)\lt 1 x∈I,f(x)<1
P
(
x
)
P(x)
P(x) 在区间
I
=
[
a
,
b
]
I=[a,b]
I=[a,b]内,函数
f
(
x
)
f(x)
f(x) 的期望(Expecration) 为:
E
[
f
(
x
)
]
=
∫
a
b
f
(
x
)
P
(
x
)
d
x
E[f(x)]=\int_a^bf(x)P(x)dx
E[f(x)]=∫abf(x)P(x)dx
方差(Variance)为:
v
a
r
[
f
(
x
)
]
=
E
[
(
f
(
x
)
−
E
[
f
(
x
)
]
)
2
]
var[f(x)]=E[(f(x)-E[f(x)])^2]
var[f(x)]=E[(f(x)−E[f(x)])2]
2、均匀分布 - Uniform Distribution
均匀分布 (baike)
Continuous uniform distribution (wikipedia)
- 每个实数的概率都是0
- 某区间的一些数是被定义好的
- 模拟:机器精度高,所以在某种程度上离散
- 均匀分布是模拟其他分布的基础
- 如果 x i x_i xi 是均匀分布的,那么 f ( x i ) f(x_i) f(xi) 就不是
- f ( x ) f(x) f(x) 非线性
- 仿真的质量取决于伪随机发生器的质量
- 种子(seed)初始化模拟:再现性(reproducibility)
3、高斯分布(正态分布) - Gaussian/Normal Distribution
- 经常出现在自然中,例如:身高,IQ
- 任意分布的定长和服从近似高斯分布:中心极限定理(central limit theorem)。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。中心极限定理就是从数学上证明了这一现象。
-
μ
:
\mu:
μ:中心的位置;
σ
:
\sigma:
σ: 分布的宽度
N ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e − 1 2 σ 2 ( x − μ ) 2 \begin{aligned}N(x|\mu,\sigma^2)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}\end{aligned} N(x∣μ,σ2)=2πσ21e−2σ21(x−μ)2
E [ N ( x ∣ μ , σ 2 ) ] = μ \begin{aligned}E[N(x|\mu,\sigma^2)]=\mu\end{aligned} E[N(x∣μ,σ2)]=μ
v a r [ N ( x ∣ μ , σ 2 ) ] = σ 2 \begin{aligned}var[N(x|\mu,\sigma^2)]=\sigma^2\end{aligned} var[N(x∣μ,σ2)]=σ2
中心极限定理 (baike)
Central limit theorem (wikipedia)
五、似然与概率 - Likelihood vs Probability
概率(probability)、似然(likelihood)、极大似然法 (sina)
如何理解似然函数? (zhihu)
1、伯努利过程 - Bernoulli Process
- 有一系列来自伯努利过程的数据点: x 1 = ′ H ′ , x 2 = ′ T ′ , x 3 = ′ T ′ x_1='H',x_2='T',x_3='T' x1=′H′,x2=′T′,x3=′T′
- 如果我们假设
μ
\mu
μ 已知,实现这些特定数据点的概率为:
( 1 − μ ) μ 2 = B e r ( x = 0 ∣ μ ) B e r ( x = 1 ∣ μ ) B e r ( x = 1 ∣ μ ) (1-\mu)\mu^2=Ber(x=0|\mu)Ber(x=1|\mu)Ber(x=1|\mu) (1−μ)μ2=Ber(x=0∣μ)Ber(x=1∣μ)Ber(x=1∣μ) - 如果我们不知道 μ \mu μ 然后考虑 μ \mu μ的质量函数(quantity function),我们叫它为似然(likelihood)
2、推论:极大似然估计 - Inference:Maximum Likelihood Estimation (MLE)
- 给定一个观测值序列:‘HTTTHHHTTTTHHHT’,我们如何求出 μ \mu μ,即硬币正面的概率?(如果硬币不均匀,有其他因素影响使得正面不是0.5,0.3? 或者 0.8?)
- 策略:写下观测值的似然,那么最大的似然记为 μ \mu μ
- 这个方法就叫做极大似然估计(Maximum Likelihood Estimation)
- 观察伯努利中的事件是独立同分布的(independently identically distributed, idd)
- 这意味着你可以将观察结果按任何顺序重新排列,而不会影响似然。
- 假设’H’有7次,'T’有8次,似然函数为
μ
7
(
1
−
μ
)
8
\mu^7(1-\mu)^8
μ7(1−μ)8,‘H’=1,‘T’=0。一般情况下:
P ( D ∣ μ ) = μ N 1 ( 1 − μ ) N − N 1 P(D|\mu)=\mu^{N_1}(1-\mu)^{N-N_1} P(D∣μ)=μN1(1−μ)N−N1 - N : N: N: 为总观测值。 N 1 N_1 N1 为 H H H 的观测值。
- 需要最大化 μ \mu μ
有很好的理由考虑对数似然(the logarithm likelihood)
- μ \mu μ 出现在指数(exponents)中,使用对数(logarithm) 可以简化。
- 极小数的对数是负数,但却是“正常”数
ln P ( D ∣ μ ) = N 1 ln μ + ( N − N 1 ) l n ( 1 − μ ) \ln P(D|\mu)=N_1\ln\mu+(N-N1)ln(1-\mu) lnP(D∣μ)=N1lnμ+(N−N1)ln(1−μ)
寻找能最大化似然的
μ
\mu
μ 值,记为
μ
M
L
\mu_{ML}
μML:
d
ln
P
(
D
∣
μ
)
d
μ
∣
μ
=
μ
M
L
=
0
\begin{aligned}\frac{d\ln P(D|\mu)}{d\mu}|_{\mu=\mu_{ML}}=0\end{aligned}
dμdlnP(D∣μ)∣μ=μML=0
结果是:
N
1
μ
M
L
−
N
−
N
1
1
−
μ
M
L
=
0
\begin{aligned}\frac{N_1}{\mu_{ML}}-\frac{N-N_1}{1-\mu_{ML}}=0\end{aligned}
μMLN1−1−μMLN−N1=0
求解
μ
\mu
μ:
μ
M
L
=
N
1
N
\begin{aligned}\mu_{ML}=\frac{N_1}{N}\end{aligned}
μML=NN1
- 稍后我们将看到MLE容易出现过拟合(overfitting)
六、联合概率 - Joint Probabilities
1、两个骰子 - Two Dice
2、自变量/独立变量 - Independent Variables
- 表:两个向量**张量(tensor)**的乘积
P 1 = ( 0.17 , 0.18 , 0.15 , 0.14 , 0.16 , 0.2 ) P_1=(0.17,0.18,0.15,0.14,0.16,0.2) P1=(0.17,0.18,0.15,0.14,0.16,0.2)
P 2 = ( 0.166 , 0.166 , 0.166 , 0.168 , 0.168 , 0.166 ) P_2=(0.166,0.166,0.166,0.168,0.168,0.166) P2=(0.166,0.166,0.166,0.168,0.168,0.166) - 独立状态空间: 6 6 6 个元素
- 联合状态空间: 6 2 6^2 62 维度灾难(curse of dimensionality)
- 表是不对称的(asymmetric)
- 但是独立显示:
P ( X 1 = ′ i ′ , X 2 = ′ j ′ ) = P ( X 1 = ′ i ′ ) P ( X 2 = ′ j ′ ) P(X_1='i',X_2='j')=P(X_1='i')P(X_2='j') P(X1=′i′,X2=′j′)=P(X1=′i′)P(X2=′j′)
七、边际概率 - Marginal Probability
联合概率、边际概率、条件概率
P
(
x
)
=
∑
Y
P
(
X
,
Y
)
P(x)=\sum_Y P(X,Y)
P(x)=Y∑P(X,Y)
所有元素
Y
Y
Y 上的总和。简写为:
P
(
X
=
1
)
=
∑
b
∈
S
y
P
(
X
=
a
,
Y
=
b
)
P(X=1)=\sum_{b\in S_y}P(X=a,Y=b)
P(X=1)=b∈Sy∑P(X=a,Y=b)
这里
S
y
S_y
Sy 是样本空间中的随机变量
Y
Y
Y。
- 不可能从边缘(marginals)重建联合概率分布(joint probability distribution)。**边缘化(marginalisation)**通常构成信息的重大损失。
- 例外:独立
- 边缘化是困难的。虽然只是对列或者行求和,但是会有维度灾难。
八、条件概率 - Conditional Probability
P ( Y = y i ∣ X = ′ Z ′ ) ≡ P ( X = ′ Z ′ , Y = y i ) P ( X = ′ Z ′ ) \begin{aligned}P(Y=y_i|X='Z')\equiv\frac{P(X='Z',Y=y_i)}{P(X='Z')}\end{aligned} P(Y=yi∣X=′Z′)≡P(X=′Z′)P(X=′Z′,Y=yi)
九、求和法则与乘积法则 - Sum and Product Rule
求和法则 - the sum rule:
P
(
X
)
=
∑
Y
P
(
X
,
Y
)
P(X)=\sum_YP(X,Y)
P(X)=Y∑P(X,Y)
乘积法则 - the product rule:
P
(
X
,
Y
)
=
P
(
Y
∣
X
)
P
(
X
)
P(X,Y)=P(Y|X)P(X)
P(X,Y)=P(Y∣X)P(X)
十、贝叶斯定理 - Bayes’ Rule/Law/Theorem
乘积法则有两种写法:
P
(
X
,
Y
)
=
P
(
Y
∣
X
)
P
(
X
)
P(X,Y)=P(Y|X)P(X)
P(X,Y)=P(Y∣X)P(X)
P
(
X
,
Y
)
=
P
(
X
∣
Y
)
P
(
Y
)
P(X,Y)=P(X|Y)P(Y)
P(X,Y)=P(X∣Y)P(Y)
继续分解(decompositions):
P
(
X
∣
Y
)
=
P
(
Y
∣
X
)
P
(
Y
)
P
(
X
)
\begin{aligned}P(X|Y)=\frac{P(Y|X)}{P(Y)}P(X)\end{aligned}
P(X∣Y)=P(Y)P(Y∣X)P(X)
或者使用求和法则:
P
(
X
∣
Y
)
=
P
(
Y
∣
X
)
∑
X
P
(
Y
∣
X
)
P
(
X
)
P
(
X
)
\begin{aligned}P(X|Y)=\frac{P(Y|X)}{\sum_XP(Y|X)P(X)}P(X)\end{aligned}
P(X∣Y)=∑XP(Y∣X)P(X)P(Y∣X)P(X)
修改时间
2022/2/1