1、随机变量分布
c d f 累积分布函数 F ( θ ) p d f 概率密度函数 f ( θ ) p ( θ 1 ≤ x ≤ θ 2 ) = ∫ θ 1 θ 2 f ( θ ) d θ = F ( θ 2 ) − F ( θ 1 ) X 、 Y 独立, P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P ( X ∈ Ω 1 , Y ∈ Ω 2 ) = P ( X = x ) P ( Y = y ) X 、 Y i d d : 独立同分布 cdf累积分布函数F(\theta)\\ pdf概率密度函数f(\theta)\\ p(\theta_1\leq x\leq \theta_2)=\int_{\theta_1}^{\theta_2} f(\theta)d\theta=F(\theta_2)-F(\theta_1)\\ X、Y独立,P(X=x,Y=y)=P(X=x)P(Y=y)\\ P(X\in \Omega_1 ,Y\in \Omega_2)=P(X=x)P(Y=y)\\ X、Y\:idd:独立同分布 cdf累积分布函数F(θ)pdf概率密度函数f(θ)p(θ1≤x≤θ2)=∫θ1θ2f(θ)dθ=F(θ2)−F(θ1)X、Y独立,P(X=x,Y=y)=P(X=x)P(Y=y)P(X∈Ω1,Y∈Ω2)=P(X=x)P(Y=y)X、Yidd:独立同分布
2、常见分布
b e r n o u l l i 分布: X ∼ B ( 1 , p ) 二项分布: X ∼ B ( n , p ) , X ∈ [ 0 , 1 , . . . , n ] , p ( x = k ) = C n k p k ( 1 − p ) n − k n → ∞ , p → 0 , n p = λ B ( n , p ) → P ( λ ) 为 p o i s s o n 分布: P ( X = k ) = λ k k ! e − λ 指数分布: p ( x = θ ) = λ k − λ θ 正态分布: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 bernoulli分布:X\sim B(1,p)\\ 二项分布:X\sim B(n,p),X\in[0,1,...,n],p(x=k)=C_n^kp^k(1-p)^{n-k}\\ n\rightarrow\infty,p\rightarrow0,np=\lambda\\ B(n,p)\rightarrow P(\lambda) 为poisson分布:P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\ 指数分布:p(x=\theta)=\lambda k^{-\lambda \theta}\\ 正态分布:f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} bernoulli分布:X∼B(1,p)二项分布:X∼B(n,p),X∈[0,1,...,n],p(x=k)=Cnkpk(1−p)n−kn→∞,p→0,np=λB(n,p)→P(λ)为poisson分布:P(X=k)=k!λke−λ指数分布:p(x=θ)=λk−λθ正态分布:f(x)=2πσ1e−2σ2(x−μ)2
全概率公式
P
(
B
)
=
∑
P
(
A
j
)
P
(
B
∣
A
j
)
逆概率
P
(
A
j
∣
B
)
=
P
(
A
j
B
)
P
(
B
)
=
P
(
B
∣
A
j
)
P
(
A
j
)
∑
P
(
A
i
)
P
(
B
∣
A
i
)
全概率公式P(B)=\sum P(A_j) P(B|A_j)\\ 逆概率P(A_j|B)=\frac{P(A_jB)}{P(B)}=\frac{P(B|A_j)P(A_j)}{\sum P(A_i) P(B|A_i)}
全概率公式P(B)=∑P(Aj)P(B∣Aj)逆概率P(Aj∣B)=P(B)P(AjB)=∑P(Ai)P(B∣Ai)P(B∣Aj)P(Aj)
离散情况
E
(
X
)
=
∑
i
=
1
n
x
i
P
(
x
=
x
i
)
连续情况
E
(
X
)
=
∫
Ω
x
f
(
x
)
d
x
E
g
(
X
)
=
∫
Ω
g
(
x
)
f
(
x
)
d
x
方差:
σ
2
=
E
(
x
−
μ
)
2
=
E
x
2
−
(
E
x
)
2
偏度:
E
(
x
−
μ
)
3
峰度:
E
(
x
−
μ
)
4
n
阶矩:
E
(
x
−
μ
)
n
,如果两个函数的各阶矩都相同,可以认为函数是一样的
协方差:
σ
x
y
=
E
(
X
−
μ
X
)
(
Y
−
μ
Y
)
相关系数:
ρ
x
y
=
σ
x
y
σ
x
2
σ
y
2
,
−
1
≤
ρ
x
y
≤
1
,
独立可以推出相关系数为
0
,反之不成立
E
(
X
∣
Y
=
y
)
=
∫
x
f
X
∣
Y
(
x
∣
y
)
=
∫
x
f
(
x
,
y
)
f
(
y
)
d
x
=
m
(
Y
)
X
、
Y
独立:
E
(
g
(
X
)
∣
Y
)
=
E
(
g
(
X
)
)
,
E
(
g
(
X
)
h
(
Y
)
∣
Y
)
=
h
(
Y
)
E
(
g
(
x
)
∣
Y
)
E
(
E
(
g
(
X
)
∣
Y
)
)
=
E
(
g
(
X
)
)
离散情况E(X)=\sum\limits_{i=1}^nx_iP(x=x_i)\\ 连续情况E(X)=\int_\Omega xf(x)dx\\ Eg(X)=\int_\Omega g(x)f(x)dx\\ 方差:\sigma^2=E(x-\mu)^2=Ex^2-(Ex)^2\\ 偏度:E(x-\mu)^3\\ 峰度:E(x-\mu)^4\\ n阶矩:E(x-\mu)^n,如果两个函数的各阶矩都相同,可以认为函数是一样的\\ 协方差:\sigma_{xy}=E(X-\mu_X)(Y-\mu_Y)\\ 相关系数:\rho_{xy}=\frac{\sigma_{xy}}{\sqrt{\sigma_x^2\sigma_y^2}},-1\leq\rho_{xy}\leq1,独立可以推出相关系数为0,反之不成立\\ E(X|Y=y)=\int xf_{X|Y}(x|y)=\int x\frac{f(x,y)}{f(y)}dx=m(Y)\\ X、Y独立:E(g(X)|Y)=E(g(X)),E(g(X)h(Y)|Y)=h(Y)E(g(x)|Y)\\ E(E(g(X)|Y))=E(g(X))
离散情况E(X)=i=1∑nxiP(x=xi)连续情况E(X)=∫Ωxf(x)dxEg(X)=∫Ωg(x)f(x)dx方差:σ2=E(x−μ)2=Ex2−(Ex)2偏度:E(x−μ)3峰度:E(x−μ)4n阶矩:E(x−μ)n,如果两个函数的各阶矩都相同,可以认为函数是一样的协方差:σxy=E(X−μX)(Y−μY)相关系数:ρxy=σx2σy2σxy,−1≤ρxy≤1,独立可以推出相关系数为0,反之不成立E(X∣Y=y)=∫xfX∣Y(x∣y)=∫xf(y)f(x,y)dx=m(Y)X、Y独立:E(g(X)∣Y)=E(g(X)),E(g(X)h(Y)∣Y)=h(Y)E(g(x)∣Y)E(E(g(X)∣Y))=E(g(X))
3、大数定律与中心极限理
大数定律: x i i d d ,均值为 μ ,则有 ∑ i = 1 n x i n → μ 弱大数定律依概率收敛: ∀ ϵ > 0 , lim n → ∞ P ( ∣ x n − x ∣ ≥ ϵ ) = 0 , x n → x x j 互不相关, c o v ( x i , x j ) = 0 , μ j = E ( x j ) , v a r ( x i ) ≤ C ∑ j = 1 n ( x j − μ j ) n ⟶ P 0 ,如果 x i 是同一个分布,则有 ∑ j = 1 n ( x j − μ j ) n ⟶ P μ 点点收敛: P ( lim n → ∞ x n = x ) = 1 , x i i d d ,均值为 μ ,则有 ∑ i = 1 n x i n ⟶ a . s μ X j i i d , μ = 0 , σ 2 = 1 , n → ∞ , ∑ j = 1 n x j n ⟶ d Z ∼ N ( 0 , 1 ) X j 的 c d f 为 F j ( x ) , x ∈ R , lim j → ∞ F j ( x ) = F ( x ) , X j ⟶ d X φ x ( t ) = E e i t x = ∫ e i t x f ( x ) d x ,欧拉公式: e r θ = c o s θ + i s i n θ φ x ( t ) = E ( c o s θ ) + i E ( s i n θ ) φ k ( t ) = i k E ( x k e i t x ) , φ k ( 0 ) = i k E ( x k ) X j 互相独立, Y = X 1 + . . . + X n , φ Y ( t ) = φ X 1 ( t ) φ X 2 ( t ) . . . φ X n ( t ) X ∼ N ( 0 , 1 ) , φ X ( t ) = φ ( 0 ) + φ ′ ( 0 ) t + 0.5 φ ′ ′ ( 0 ) t 2 + o ( t 2 ) = 1 − 0.5 t 2 + o ( t 2 ) Y = ∑ X i n , φ Y = ( 1 − 0.5 t 2 + o ( t 2 ) ) n e x = lim n → ∞ ( 1 + x n ) n , φ Y = e − t 2 2 推出 n → ∞ , Y ∼ N ( 0 , 1 ) ∑ X i → N ( μ , σ 2 ) 大数定律:x_i \:idd,均值为\mu,则有\frac{\sum\limits_{i=1}^nx_i}{n}\rightarrow\mu\\ 弱大数定律依概率收敛:\forall \epsilon>0,\lim\limits_{n\rightarrow \infty}P(|x_n-x|\geq \epsilon)=0,x_n\rightarrow x\\ {x_j}互不相关,cov(x_i,x_j)=0,\mu_j=E(x_j),var(x_i)\leq C\\ \frac{\sum\limits_{j=1}^n(x_j-\mu_j)}{n} \stackrel{P}{\longrightarrow}0,如果x_i是同一个分布,则有\frac{\sum\limits_{j=1}^n(x_j-\mu_j)}{n} \stackrel{P}{\longrightarrow}\mu\\ 点点收敛:P(\lim\limits_{n\rightarrow \infty}x_n=x)=1,x_i \:idd,均值为\mu,则有\frac{\sum\limits_{i=1}^nx_i}{n} \stackrel{a.s}{\longrightarrow}\mu\\ X_j\:iid,\mu=0,\sigma^2=1,n\rightarrow \infty,\frac{\sum\limits_{j=1}^nx_j}{\sqrt{n}} \stackrel{d}{\longrightarrow} Z\sim N(0,1)\\ X_j的cdf为F_j(x),x\in R,\lim\limits_{j\rightarrow \infty}F_j(x)=F(x),X_j\stackrel{d}{\longrightarrow}X\\ \\ \varphi_x(t)=Ee^{itx}=\int e^{itx}f(x)dx,欧拉公式:e^{r\theta}=cos\theta+isin\theta\\ \varphi_x(t)=E(cos\theta)+iE(sin\theta)\\ \varphi^k(t)=i^kE(x^ke^{itx}),\varphi^k(0)=i^kE(x^k)\\ X_j互相独立,Y=X_1+...+X_n,\varphi_Y(t)=\varphi_{X_1}(t)\varphi_{X_2}(t)...\varphi_{X_n}(t)\\ X\sim N(0,1),\varphi_X(t)=\varphi(0)+\varphi'(0)t+0.5\varphi''(0)t^2+o(t^2)=1-0.5t^2+o(t^2)\\ Y=\frac{\sum{X_i}}{\sqrt{n}},\varphi_Y=(1-0.5t^2+o(t^2))^n\\ e^x=\lim\limits_{n\rightarrow\infty}(1+\frac{x}{n})^n,\varphi_Y=e^{-\frac{t^2}{2}}推出n\rightarrow \infty,Y\sim N(0,1)\\ \sum{X_i}\rightarrow N(\mu,\sigma^2) 大数定律:xiidd,均值为μ,则有ni=1∑nxi→μ弱大数定律依概率收敛:∀ϵ>0,n→∞limP(∣xn−x∣≥ϵ)=0,xn→xxj互不相关,cov(xi,xj)=0,μj=E(xj),var(xi)≤Cnj=1∑n(xj−μj)⟶P0,如果xi是同一个分布,则有nj=1∑n(xj−μj)⟶Pμ点点收敛:P(n→∞limxn=x)=1,xiidd,均值为μ,则有ni=1∑nxi⟶a.sμXjiid,μ=0,σ2=1,n→∞,nj=1∑nxj⟶dZ∼N(0,1)Xj的cdf为Fj(x),x∈R,j→∞limFj(x)=F(x),Xj⟶dXφx(t)=Eeitx=∫eitxf(x)dx,欧拉公式:erθ=cosθ+isinθφx(t)=E(cosθ)+iE(sinθ)φk(t)=ikE(xkeitx),φk(0)=ikE(xk)Xj互相独立,Y=X1+...+Xn,φY(t)=φX1(t)φX2(t)...φXn(t)X∼N(0,1),φX(t)=φ(0)+φ′(0)t+0.5φ′′(0)t2+o(t2)=1−0.5t2+o(t2)Y=n∑Xi,φY=(1−0.5t2+o(t2))nex=n→∞lim(1+nx)n,φY=e−2t2推出n→∞,Y∼N(0,1)∑Xi→N(μ,σ2)
4、准确率召回率
P
−
R
曲线:
P
r
e
c
i
s
i
o
n
为
Y
轴,
R
e
c
a
l
l
为
X
轴
,
y
随
x
的增长下降
R
O
C
曲线:
T
P
R
为
Y
轴,
F
P
R
为
X
轴,
T
P
R
=
R
e
c
a
l
l
,
F
P
R
=
F
P
F
P
+
T
N
,
y
随
x
的增长增长,曲线下面积是
A
U
C
。
P-R曲线:Precision为Y轴,Recall为X轴,y随x的增长下降\\ ROC曲线:TPR为Y轴,FPR为X轴,TPR=Recall,FPR=\frac{FP}{FP+TN},y随x的增长增长,曲线下面积是AUC。
P−R曲线:Precision为Y轴,Recall为X轴,y随x的增长下降ROC曲线:TPR为Y轴,FPR为X轴,TPR=Recall,FPR=FP+TNFP,y随x的增长增长,曲线下面积是AUC。
4、极大似然估计、最大后验估计
极大似然估计: X i 、 Y i ,模型的参数时 θ ,观测之间相互独立 ∏ i = 1 n P ( X i , Y i ∣ θ ) = L ( θ ) 尽可能大,即有 ∂ L ( θ ) ∂ θ = 0 θ ^ M L E = arg max θ L ( θ ) 线性回归: ∑ i = 1 n ϵ i 2 , Y = X β + ϵ , ϵ ∼ N ( 0 , σ 2 ) n 个观测 : ϵ ^ = ( Y i − X i β 0 ) , p ( ϵ i = ϵ i ^ ) = 1 2 π σ 2 e − ϵ i ^ 2 σ 2 L = ∏ i = 1 n p ( ϵ i = ϵ i ^ ) ) = ( ) n e − ∑ ϵ i ^ 2 2 σ 2 , 要使得 L 最大,就是使得 ∑ ϵ i ^ 2 最小,所以极大似然估计在线性回归中跟最小二乘等价。 极大似然估计:X_i、Y_i,模型的参数时\theta,观测之间相互独立\\ \prod \limits_{i=1}^nP(X_i,Y_i|\theta)=L(\theta)尽可能大,即有\frac{ \partial L(\theta)}{\partial\theta}=0\\ \hat{\theta}_{MLE}=\argmax\limits_\theta L(\theta)\\ 线性回归:\\\sum\limits_{i=1}^n\epsilon_i^2,Y=X\beta+\epsilon,\epsilon\sim N(0,\sigma^2)\\ n个观测:\hat{\epsilon}=(Y_i-X_i\beta_0),p(\epsilon_i=\hat{\epsilon_i})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\hat{\epsilon_i}}{2\sigma^2}}\\ L=\prod\limits_{i=1}^np(\epsilon_i=\hat{\epsilon_i}))=(\:)^ne^{-\frac{\sum\hat{\epsilon_i}^2}{2\sigma^2}},要使得L最大,就是使得\sum\hat{\epsilon_i}^2最小,所以极大似然估计在线性回归中跟最小二乘等价。 极大似然估计:Xi、Yi,模型的参数时θ,观测之间相互独立i=1∏nP(Xi,Yi∣θ)=L(θ)尽可能大,即有∂θ∂L(θ)=0θ^MLE=θargmaxL(θ)线性回归:i=1∑nϵi2,Y=Xβ+ϵ,ϵ∼N(0,σ2)n个观测:ϵ^=(Yi−Xiβ0),p(ϵi=ϵi^)=2πσ21e−2σ2ϵi^L=i=1∏np(ϵi=ϵi^))=()ne−2σ2∑ϵi^2,要使得L最大,就是使得∑ϵi^2最小,所以极大似然估计在线性回归中跟最小二乘等价。
最大后验估计: f ( θ ∣ x ) = f ( x ∣ θ ) g ( θ ) ∑ θ f ( x ∣ θ ) g ( θ ) , θ ^ M A P = arg max θ f ( θ ∣ x ) = arg max θ f ( x ∣ θ ) g ( θ ) , g ( θ ) 为先验分布,最大后验估计以最大似然估计相比,多了先验分布 g ( θ ) 项,相当于假设 g ( θ ) 为常数(广义分布不要求概率密度函数积分为 1 ) 无信息先验: θ ∈ [ 0 , 1 ] , g ( θ ) = 1 , f ( x ∣ θ ) = 1 2 π θ 2 e − x 2 2 θ 2 , x ∼ N ( 0 , θ 2 ) 最大后验估计:\\ f(\theta|x)=\frac{f(x|\theta)g(\theta)}{\sum\limits_\theta f(x|\theta)g(\theta)},\hat{\theta}_{MAP}=\argmax\limits_\theta f(\theta|x)=\argmax\limits_\theta f(x|\theta)g(\theta),g(\theta)为先验分布,最大后验估计以最大似然估计相比,多了先验分布g(\theta)项,相当于假设g(\theta)为常数(广义分布不要求概率密度函数积分为1)\\ 无信息先验:\theta\in[0,1],g(\theta)=1,f(x|\theta)=\frac{1}{\sqrt{2\pi\theta^2}}e^{-\frac{x^2}{2\theta^2}},x\sim N(0,\theta^2) 最大后验估计:f(θ∣x)=θ∑f(x∣θ)g(θ)f(x∣θ)g(θ),θ^MAP=θargmaxf(θ∣x)=θargmaxf(x∣θ)g(θ),g(θ)为先验分布,最大后验估计以最大似然估计相比,多了先验分布g(θ)项,相当于假设g(θ)为常数(广义分布不要求概率密度函数积分为1)无信息先验:θ∈[0,1],g(θ)=1,f(x∣θ)=2πθ21e−2θ2x2,x∼N(0,θ2)
β = θ 2 , β 的概率密度函数为 g ( β ) , ∫ A 1 g 1 ( β ) d β = ∫ A g ( θ ) d θ → g 1 ( θ 2 ) d θ 2 = g ( θ ) d θ → g 1 ( θ 2 ) = g ( θ ) 2 θ = 1 2 θ → g 1 ( β ) = 1 2 β , β 非均匀分布, x ∣ β ∼ N ( 0 , β ) \beta=\theta^2,\beta的概率密度函数为g(\beta),\int_{A_1}g_1(\beta)d\beta=\int_{A}g(\theta)d\theta\rightarrow g_1(\theta^2)d\theta^2=g(\theta)d\theta\rightarrow g_1(\theta^2)=\frac{g(\theta)}{2\theta}=\frac{1}{2\theta}\rightarrow g_1(\beta)=\frac{1}{2\sqrt{\beta}},\beta非均匀分布,x|\beta\sim N(0,\beta) β=θ2,β的概率密度函数为g(β),∫A1g1(β)dβ=∫Ag(θ)dθ→g1(θ2)dθ2=g(θ)dθ→g1(θ2)=2θg(θ)=2θ1→g1(β)=2β1,β非均匀分布,x∣β∼N(0,β)
4、蒙特卡洛方法、bootstrap方法、EM算法
蒙特卡洛方法: X ∼ U ( a , b ) , Y ∼ U ( 0 , c ) , i f Y ≤ f ( x ) : c o u n t + 1 , c o u n t t o t a l = ∫ a b f d x c ( b − a ) M C M C 、 g i b b s 采样 蒙特卡洛方法:X\sim U(a,b),Y\sim U(0,c),if\:Y\leq f(x): count+1,\frac{count}{total}=\frac{\int_a^bfdx}{c(b-a)}\\ MCMC、gibbs采样 蒙特卡洛方法:X∼U(a,b),Y∼U(0,c),ifY≤f(x):count+1,totalcount=c(b−a)∫abfdxMCMC、gibbs采样
b o o t s t r a p 方法: x 1 , x 2 , . . . , x 50 , μ 0 ^ = ∑ i = 1 50 x i 50 = f ( x 1 , x 2 , . . . , x 50 ) , μ 0 ^ ∼ ? , x i ∼ g ( θ ) 通过数据算分布 J a c k k n i f e 方法: x 2 , . . . , x 50 → μ 1 ^ = ∑ − 1 x i 49 x 1 , x 3 , . . . , x 50 → μ 1 ^ = ∑ − 2 x i 49 . . . μ 50 ^ = ∑ − 2 x i 49 通过 μ 1 ^ 、 . . . 、 μ 50 ^ (互相不独立)获得 μ 1 ^ 的分布 对参数基于样本的估计 T = g ( x 1 , x 2 , . . . , x n ) , E ( T ) = 总体参数则估计是无偏的, J a c k k n i f e 方法通过 n μ 0 ^ − n μ i ^ 去除偏差,但是估计离的都很近 b o o t s t r a p 方法 : 有放回的抽样 n 次 , 形成一个样本集,重复 k 次获得 μ i ^ , μ i ^ 的分布当做 μ 0 ^ 的分布,独立性更好 bootstrap方法:x_1,x_2,...,x_{50},\hat{\mu_0}=\frac{\sum\limits_{i=1}^{50}x_i}{50}=f(x_1,x_2,...,x_{50}),\hat{\mu_0}\sim?,x_i\sim g(\theta)\\ 通过数据算分布\\ Jackknife方法:x_2,...,x_{50}\rightarrow \hat{\mu_1}=\frac{\sum\limits_{-1} x_i}{49}\\ x_1,x_3,...,x_{50}\rightarrow \hat{\mu_1}=\frac{\sum\limits_{-2} x_i}{49}\\ ...\\ \hat{\mu_{50}}=\frac{\sum\limits_{-2} x_i}{49}\\ 通过 \hat{\mu_1}、...、 \hat{\mu_{50}}(互相不独立)获得 \hat{\mu_1}的分布\\ 对参数基于样本的估计T=g(x_1,x_2,...,x_n),E(T)=总体参数则估计是无偏的,Jackknife方法通过n \hat{\mu_{0}}-n \hat{\mu_{i}}去除偏差,但是估计离的都很近\\ bootstrap方法:有放回的抽样n次,形成一个样本集,重复k次获得\hat{\mu_i},\hat{\mu_i}的分布当做\hat{\mu_0}的分布,独立性更好 bootstrap方法:x1,x2,...,x50,μ0^=50i=1∑50xi=f(x1,x2,...,x50),μ0^∼?,xi∼g(θ)通过数据算分布Jackknife方法:x2,...,x50→μ1^=49−1∑xix1,x3,...,x50→μ1^=49−2∑xi...μ50^=49−2∑xi通过μ1^、...、μ50^(互相不独立)获得μ1^的分布对参数基于样本的估计T=g(x1,x2,...,xn),E(T)=总体参数则估计是无偏的,Jackknife方法通过nμ0^−nμi^去除偏差,但是估计离的都很近bootstrap方法:有放回的抽样n次,形成一个样本集,重复k次获得μi^,μi^的分布当做μ0^的分布,独立性更好
E M 算法 P ( X , Z ∣ θ ) = L ( θ , X , Z ) , X 是观测, Z 与 X 有关但是没有被观测到, θ 时模型的参数 P ( x ∣ θ ) P ( ∣ θ ) = P ( x , θ ) P ( x , z , θ ) = P ( x , θ ) P ( z ∣ x , θ ) = P ( x , z ∣ θ ) P ( θ ) P ( x , z ∣ θ ) = P ( x ∣ θ ) P ( z ∣ x , θ ) l o g P ( x ∣ θ ) = l o g P ( x , z ∣ θ ) − l o g P ( z ∣ x , θ ) 假设已经给定 θ , l o g P ( x ∣ θ ) = l o g P ( x , z ∣ θ 0 ) − l o g P ( z ∣ x , θ 0 ) 等式左右两边对 Z 求积分求有等式 1 : l o g P ( x ∣ θ ) = ∑ Z P ( z ∣ x , θ 0 ) l o g P ( x , z ∣ θ ) − ∑ Z P ( z ∣ x , θ 0 ) l o g P ( z ∣ x , θ ) ,记 − ∑ P l o g P = H ( P ) 为熵, − ∑ Z P ( z ∣ x , θ 0 ) l o g P ( z ∣ x , θ ) = H ( θ 0 , θ ) G i b b s 不等式: H ( θ 0 , θ ) ≥ H ( θ 0 , θ 0 ) ≥ 0 ∑ Z P ( z ∣ x , θ 0 ) l o g P ( x , z ∣ θ ) = Q ( θ 0 , θ ) , l o g P ( x ∣ θ ) = P ( θ ) 等式 1 化为 P ( θ ) − P ( θ 0 ) = Q ( θ 0 , θ ) − Q ( θ 0 , θ 0 ) + H ( θ 0 , θ ) − H ( θ 0 , θ 0 ) 即有 Δ P = Δ Q − Δ H , Δ H ≥ 0 , 所以 Δ Q ≥ 0 可推出 Δ P ≥ 0 E : Q ( θ 0 , θ ) = E z ∣ x , θ 0 ( l o g L ( θ , x , z ) ) M : θ 1 = arg max θ Q ( θ 0 , θ ) , 用 θ 1 代替原来的 θ 0 循环上述 E / M 步骤,最终 Q 越来越大, P 也越来越大,最终达到极大似然估计的效果。 具体例子: Z 表示男 1 女 0 , θ = ( μ 1 , μ 0 ) 表示分布的参数,先从 ( 0 , 0 ) 开始,不断迭代 E 、 M 得到新的 θ EM算法\\ P(X,Z|\theta)=L(\theta,X,Z),X是观测,Z与X有关但是没有被观测到,\theta时模型的参数\\ P(x|\theta)P(|\theta)=P(x,\theta)\\ P(x,z,\theta)=P(x,\theta)P(z|x,\theta)=P(x,z|\theta)P(\theta)\\ P(x,z|\theta)=P(x|\theta)P(z|x,\theta)\\ logP(x|\theta)=logP(x,z|\theta)-logP(z|x,\theta)\\ 假设已经给定\theta,logP(x|\theta)=logP(x,z|\theta_0)-logP(z|x,\theta_0)\\ 等式左右两边对Z求积分求有等式1:logP(x|\theta)=\sum\limits_Z P(z|x,\theta_0)logP(x,z|\theta)-\sum\limits_Z P(z|x,\theta_0)logP(z|x,\theta),记-\sum PlogP=H(P)为熵,-\sum\limits_Z P(z|x,\theta_0)logP(z|x,\theta)=H(\theta_0,\theta)\\ Gibbs不等式:H(\theta_0,\theta)\geq H(\theta_0,\theta_0)\geq0\\ \sum\limits_Z P(z|x,\theta_0)logP(x,z|\theta)=Q(\theta_0,\theta),logP(x|\theta)=P(\theta)\\ 等式1化为P(\theta)-P(\theta_0)=Q(\theta_0,\theta)-Q(\theta_0,\theta_0)+H(\theta_0,\theta)-H(\theta_0,\theta_0)\\ 即有\Delta P=\Delta Q-\Delta H,\Delta H\geq0,所以\Delta Q\geq0可推出\Delta P\geq0\\ E:Q(\theta_0,\theta)=E_{z|x,\theta_0}(logL(\theta,x,z))\\ M:\theta_1=\argmax\limits_\theta Q(\theta_0,\theta),用\theta_1代替原来的\theta_0\\ 循环上述E/M步骤,最终Q越来越大,P也越来越大,最终达到极大似然估计的效果。\\ 具体例子:Z表示男1女0,\theta=(\mu_1,\mu_0)表示分布的参数,先从(0,0)开始,不断迭代E、M得到新的\theta EM算法P(X,Z∣θ)=L(θ,X,Z),X是观测,Z与X有关但是没有被观测到,θ时模型的参数P(x∣θ)P(∣θ)=P(x,θ)P(x,z,θ)=P(x,θ)P(z∣x,θ)=P(x,z∣θ)P(θ)P(x,z∣θ)=P(x∣θ)P(z∣x,θ)logP(x∣θ)=logP(x,z∣θ)−logP(z∣x,θ)假设已经给定θ,logP(x∣θ)=logP(x,z∣θ0)−logP(z∣x,θ0)等式左右两边对Z求积分求有等式1:logP(x∣θ)=Z∑P(z∣x,θ0)logP(x,z∣θ)−Z∑P(z∣x,θ0)logP(z∣x,θ),记−∑PlogP=H(P)为熵,−Z∑P(z∣x,θ0)logP(z∣x,θ)=H(θ0,θ)Gibbs不等式:H(θ0,θ)≥H(θ0,θ0)≥0Z∑P(z∣x,θ0)logP(x,z∣θ)=Q(θ0,θ),logP(x∣θ)=P(θ)等式1化为P(θ)−P(θ0)=Q(θ0,θ)−Q(θ0,θ0)+H(θ0,θ)−H(θ0,θ0)即有ΔP=ΔQ−ΔH,ΔH≥0,所以ΔQ≥0可推出ΔP≥0E:Q(θ0,θ)=Ez∣x,θ0(logL(θ,x,z))M:θ1=θargmaxQ(θ0,θ),用θ1代替原来的θ0循环上述E/M步骤,最终Q越来越大,P也越来越大,最终达到极大似然估计的效果。具体例子:Z表示男1女0,θ=(μ1,μ0)表示分布的参数,先从(0,0)开始,不断迭代E、M得到新的θ