25、机器学习数学基础:概率论

1、随机变量分布

c d f 累积分布函数 F ( θ ) p d f 概率密度函数 f ( θ ) p ( θ 1 ≤ x ≤ θ 2 ) = ∫ θ 1 θ 2 f ( θ ) d θ = F ( θ 2 ) − F ( θ 1 ) X 、 Y 独立, P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P ( X ∈ Ω 1 , Y ∈ Ω 2 ) = P ( X = x ) P ( Y = y ) X 、 Y   i d d : 独立同分布 cdf累积分布函数F(\theta)\\ pdf概率密度函数f(\theta)\\ p(\theta_1\leq x\leq \theta_2)=\int_{\theta_1}^{\theta_2} f(\theta)d\theta=F(\theta_2)-F(\theta_1)\\ X、Y独立,P(X=x,Y=y)=P(X=x)P(Y=y)\\ P(X\in \Omega_1 ,Y\in \Omega_2)=P(X=x)P(Y=y)\\ X、Y\:idd:独立同分布 cdf累积分布函数F(θ)pdf概率密度函数f(θ)p(θ1xθ2)=θ1θ2f(θ)dθ=F(θ2)F(θ1)XY独立,P(X=x,Y=y)=P(X=x)P(Y=y)P(XΩ1,YΩ2)=P(X=x)P(Y=y)XYidd:独立同分布

2、常见分布

b e r n o u l l i 分布: X ∼ B ( 1 , p ) 二项分布: X ∼ B ( n , p ) , X ∈ [ 0 , 1 , . . . , n ] , p ( x = k ) = C n k p k ( 1 − p ) n − k n → ∞ , p → 0 , n p = λ B ( n , p ) → P ( λ ) 为 p o i s s o n 分布: P ( X = k ) = λ k k ! e − λ 指数分布: p ( x = θ ) = λ k − λ θ 正态分布: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 bernoulli分布:X\sim B(1,p)\\ 二项分布:X\sim B(n,p),X\in[0,1,...,n],p(x=k)=C_n^kp^k(1-p)^{n-k}\\ n\rightarrow\infty,p\rightarrow0,np=\lambda\\ B(n,p)\rightarrow P(\lambda) 为poisson分布:P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\ 指数分布:p(x=\theta)=\lambda k^{-\lambda \theta}\\ 正态分布:f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} bernoulli分布:XB(1,p)二项分布:XB(n,p)X[0,1,...,n]p(x=k)=Cnkpk(1p)nknp0np=λB(n,p)P(λ)poisson分布:P(X=k)=k!λkeλ指数分布:p(x=θ)=λkλθ正态分布:f(x)=2πσ 1e2σ2(xμ)2

全概率公式 P ( B ) = ∑ P ( A j ) P ( B ∣ A j ) 逆概率 P ( A j ∣ B ) = P ( A j B ) P ( B ) = P ( B ∣ A j ) P ( A j ) ∑ P ( A i ) P ( B ∣ A i ) 全概率公式P(B)=\sum P(A_j) P(B|A_j)\\ 逆概率P(A_j|B)=\frac{P(A_jB)}{P(B)}=\frac{P(B|A_j)P(A_j)}{\sum P(A_i) P(B|A_i)} 全概率公式P(B)=P(Aj)P(BAj)逆概率P(AjB)=P(B)P(AjB)=P(Ai)P(BAi)P(BAj)P(Aj)
离散情况 E ( X ) = ∑ i = 1 n x i P ( x = x i ) 连续情况 E ( X ) = ∫ Ω x f ( x ) d x E g ( X ) = ∫ Ω g ( x ) f ( x ) d x 方差: σ 2 = E ( x − μ ) 2 = E x 2 − ( E x ) 2 偏度: E ( x − μ ) 3 峰度: E ( x − μ ) 4 n 阶矩: E ( x − μ ) n ,如果两个函数的各阶矩都相同,可以认为函数是一样的 协方差: σ x y = E ( X − μ X ) ( Y − μ Y ) 相关系数: ρ x y = σ x y σ x 2 σ y 2 , − 1 ≤ ρ x y ≤ 1 , 独立可以推出相关系数为 0 ,反之不成立 E ( X ∣ Y = y ) = ∫ x f X ∣ Y ( x ∣ y ) = ∫ x f ( x , y ) f ( y ) d x = m ( Y ) X 、 Y 独立: E ( g ( X ) ∣ Y ) = E ( g ( X ) ) , E ( g ( X ) h ( Y ) ∣ Y ) = h ( Y ) E ( g ( x ) ∣ Y ) E ( E ( g ( X ) ∣ Y ) ) = E ( g ( X ) ) 离散情况E(X)=\sum\limits_{i=1}^nx_iP(x=x_i)\\ 连续情况E(X)=\int_\Omega xf(x)dx\\ Eg(X)=\int_\Omega g(x)f(x)dx\\ 方差:\sigma^2=E(x-\mu)^2=Ex^2-(Ex)^2\\ 偏度:E(x-\mu)^3\\ 峰度:E(x-\mu)^4\\ n阶矩:E(x-\mu)^n,如果两个函数的各阶矩都相同,可以认为函数是一样的\\ 协方差:\sigma_{xy}=E(X-\mu_X)(Y-\mu_Y)\\ 相关系数:\rho_{xy}=\frac{\sigma_{xy}}{\sqrt{\sigma_x^2\sigma_y^2}},-1\leq\rho_{xy}\leq1,独立可以推出相关系数为0,反之不成立\\ E(X|Y=y)=\int xf_{X|Y}(x|y)=\int x\frac{f(x,y)}{f(y)}dx=m(Y)\\ X、Y独立:E(g(X)|Y)=E(g(X)),E(g(X)h(Y)|Y)=h(Y)E(g(x)|Y)\\ E(E(g(X)|Y))=E(g(X)) 离散情况E(X)=i=1nxiP(x=xi)连续情况E(X)=Ωxf(x)dxEg(X)=Ωg(x)f(x)dx方差:σ2=E(xμ)2=Ex2(Ex)2偏度:E(xμ)3峰度:E(xμ)4n阶矩:E(xμ)n,如果两个函数的各阶矩都相同,可以认为函数是一样的协方差:σxy=E(XμX)(YμY)相关系数:ρxy=σx2σy2 σxy,1ρxy1,独立可以推出相关系数为0,反之不成立E(XY=y)=xfXY(xy)=xf(y)f(x,y)dx=m(Y)XY独立:E(g(X)Y)=E(g(X))E(g(X)h(Y)Y)=h(Y)E(g(x)Y)E(E(g(X)Y))=E(g(X))

3、大数定律与中心极限理

大数定律: x i   i d d ,均值为 μ ,则有 ∑ i = 1 n x i n → μ 弱大数定律依概率收敛: ∀ ϵ > 0 , lim ⁡ n → ∞ P ( ∣ x n − x ∣ ≥ ϵ ) = 0 , x n → x x j 互不相关, c o v ( x i , x j ) = 0 , μ j = E ( x j ) , v a r ( x i ) ≤ C ∑ j = 1 n ( x j − μ j ) n ⟶ P 0 ,如果 x i 是同一个分布,则有 ∑ j = 1 n ( x j − μ j ) n ⟶ P μ 点点收敛: P ( lim ⁡ n → ∞ x n = x ) = 1 , x i   i d d ,均值为 μ ,则有 ∑ i = 1 n x i n ⟶ a . s μ X j   i i d , μ = 0 , σ 2 = 1 , n → ∞ , ∑ j = 1 n x j n ⟶ d Z ∼ N ( 0 , 1 ) X j 的 c d f 为 F j ( x ) , x ∈ R , lim ⁡ j → ∞ F j ( x ) = F ( x ) , X j ⟶ d X φ x ( t ) = E e i t x = ∫ e i t x f ( x ) d x ,欧拉公式: e r θ = c o s θ + i s i n θ φ x ( t ) = E ( c o s θ ) + i E ( s i n θ ) φ k ( t ) = i k E ( x k e i t x ) , φ k ( 0 ) = i k E ( x k ) X j 互相独立, Y = X 1 + . . . + X n , φ Y ( t ) = φ X 1 ( t ) φ X 2 ( t ) . . . φ X n ( t ) X ∼ N ( 0 , 1 ) , φ X ( t ) = φ ( 0 ) + φ ′ ( 0 ) t + 0.5 φ ′ ′ ( 0 ) t 2 + o ( t 2 ) = 1 − 0.5 t 2 + o ( t 2 ) Y = ∑ X i n , φ Y = ( 1 − 0.5 t 2 + o ( t 2 ) ) n e x = lim ⁡ n → ∞ ( 1 + x n ) n , φ Y = e − t 2 2 推出 n → ∞ , Y ∼ N ( 0 , 1 ) ∑ X i → N ( μ , σ 2 ) 大数定律:x_i \:idd,均值为\mu,则有\frac{\sum\limits_{i=1}^nx_i}{n}\rightarrow\mu\\ 弱大数定律依概率收敛:\forall \epsilon>0,\lim\limits_{n\rightarrow \infty}P(|x_n-x|\geq \epsilon)=0,x_n\rightarrow x\\ {x_j}互不相关,cov(x_i,x_j)=0,\mu_j=E(x_j),var(x_i)\leq C\\ \frac{\sum\limits_{j=1}^n(x_j-\mu_j)}{n} \stackrel{P}{\longrightarrow}0,如果x_i是同一个分布,则有\frac{\sum\limits_{j=1}^n(x_j-\mu_j)}{n} \stackrel{P}{\longrightarrow}\mu\\ 点点收敛:P(\lim\limits_{n\rightarrow \infty}x_n=x)=1,x_i \:idd,均值为\mu,则有\frac{\sum\limits_{i=1}^nx_i}{n} \stackrel{a.s}{\longrightarrow}\mu\\ X_j\:iid,\mu=0,\sigma^2=1,n\rightarrow \infty,\frac{\sum\limits_{j=1}^nx_j}{\sqrt{n}} \stackrel{d}{\longrightarrow} Z\sim N(0,1)\\ X_j的cdf为F_j(x),x\in R,\lim\limits_{j\rightarrow \infty}F_j(x)=F(x),X_j\stackrel{d}{\longrightarrow}X\\ \\ \varphi_x(t)=Ee^{itx}=\int e^{itx}f(x)dx,欧拉公式:e^{r\theta}=cos\theta+isin\theta\\ \varphi_x(t)=E(cos\theta)+iE(sin\theta)\\ \varphi^k(t)=i^kE(x^ke^{itx}),\varphi^k(0)=i^kE(x^k)\\ X_j互相独立,Y=X_1+...+X_n,\varphi_Y(t)=\varphi_{X_1}(t)\varphi_{X_2}(t)...\varphi_{X_n}(t)\\ X\sim N(0,1),\varphi_X(t)=\varphi(0)+\varphi'(0)t+0.5\varphi''(0)t^2+o(t^2)=1-0.5t^2+o(t^2)\\ Y=\frac{\sum{X_i}}{\sqrt{n}},\varphi_Y=(1-0.5t^2+o(t^2))^n\\ e^x=\lim\limits_{n\rightarrow\infty}(1+\frac{x}{n})^n,\varphi_Y=e^{-\frac{t^2}{2}}推出n\rightarrow \infty,Y\sim N(0,1)\\ \sum{X_i}\rightarrow N(\mu,\sigma^2) 大数定律:xiidd,均值为μ,则有ni=1nxiμ弱大数定律依概率收敛:ϵ>0nlimP(xnxϵ)=0,xnxxj互不相关,cov(xi,xj)=0,μj=E(xj),var(xi)Cnj=1n(xjμj)P0,如果xi是同一个分布,则有nj=1n(xjμj)Pμ点点收敛:P(nlimxn=x)=1xiidd,均值为μ,则有ni=1nxia.sμXjiid,μ=0,σ2=1,n,n j=1nxjdZN(0,1)XjcdfFj(x),xR,jlimFj(x)=F(x),XjdXφx(t)=Eeitx=eitxf(x)dx,欧拉公式:erθ=cosθ+isinθφx(t)=E(cosθ)+iE(sinθ)φk(t)=ikE(xkeitx)φk(0)=ikE(xk)Xj互相独立,Y=X1+...+XnφY(t)=φX1(t)φX2(t)...φXn(t)XN(0,1)φX(t)=φ(0)+φ(0)t+0.5φ′′(0)t2+o(t2)=10.5t2+o(t2)Y=n Xi,φY=(10.5t2+o(t2))nex=nlim(1+nx)n,φY=e2t2推出n,YN(0,1)XiN(μ,σ2)

4、准确率召回率

在这里插入图片描述
在这里插入图片描述
P − R 曲线: P r e c i s i o n 为 Y 轴, R e c a l l 为 X 轴 , y 随 x 的增长下降 R O C 曲线: T P R 为 Y 轴, F P R 为 X 轴, T P R = R e c a l l , F P R = F P F P + T N , y 随 x 的增长增长,曲线下面积是 A U C 。 P-R曲线:Precision为Y轴,Recall为X轴,y随x的增长下降\\ ROC曲线:TPR为Y轴,FPR为X轴,TPR=Recall,FPR=\frac{FP}{FP+TN},y随x的增长增长,曲线下面积是AUC。 PR曲线:PrecisionY轴,RecallX,yx的增长下降ROC曲线:TPRY轴,FPRX轴,TPR=RecallFPR=FP+TNFPyx的增长增长,曲线下面积是AUC

4、极大似然估计、最大后验估计

极大似然估计: X i 、 Y i ,模型的参数时 θ ,观测之间相互独立 ∏ i = 1 n P ( X i , Y i ∣ θ ) = L ( θ ) 尽可能大,即有 ∂ L ( θ ) ∂ θ = 0 θ ^ M L E = arg max ⁡ θ L ( θ ) 线性回归: ∑ i = 1 n ϵ i 2 , Y = X β + ϵ , ϵ ∼ N ( 0 , σ 2 ) n 个观测 : ϵ ^ = ( Y i − X i β 0 ) , p ( ϵ i = ϵ i ^ ) = 1 2 π σ 2 e − ϵ i ^ 2 σ 2 L = ∏ i = 1 n p ( ϵ i = ϵ i ^ ) ) = (   ) n e − ∑ ϵ i ^ 2 2 σ 2 , 要使得 L 最大,就是使得 ∑ ϵ i ^ 2 最小,所以极大似然估计在线性回归中跟最小二乘等价。 极大似然估计:X_i、Y_i,模型的参数时\theta,观测之间相互独立\\ \prod \limits_{i=1}^nP(X_i,Y_i|\theta)=L(\theta)尽可能大,即有\frac{ \partial L(\theta)}{\partial\theta}=0\\ \hat{\theta}_{MLE}=\argmax\limits_\theta L(\theta)\\ 线性回归:\\\sum\limits_{i=1}^n\epsilon_i^2,Y=X\beta+\epsilon,\epsilon\sim N(0,\sigma^2)\\ n个观测:\hat{\epsilon}=(Y_i-X_i\beta_0),p(\epsilon_i=\hat{\epsilon_i})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\hat{\epsilon_i}}{2\sigma^2}}\\ L=\prod\limits_{i=1}^np(\epsilon_i=\hat{\epsilon_i}))=(\:)^ne^{-\frac{\sum\hat{\epsilon_i}^2}{2\sigma^2}},要使得L最大,就是使得\sum\hat{\epsilon_i}^2最小,所以极大似然估计在线性回归中跟最小二乘等价。 极大似然估计:XiYi,模型的参数时θ,观测之间相互独立i=1nP(Xi,Yiθ)=L(θ)尽可能大,即有θL(θ)=0θ^MLE=θargmaxL(θ)线性回归:i=1nϵi2,Y=+ϵ,ϵN(0,σ2)n个观测:ϵ^=(YiXiβ0)p(ϵi=ϵi^)=2πσ2 1e2σ2ϵi^L=i=1np(ϵi=ϵi^))=()ne2σ2ϵi^2,要使得L最大,就是使得ϵi^2最小,所以极大似然估计在线性回归中跟最小二乘等价。

最大后验估计: f ( θ ∣ x ) = f ( x ∣ θ ) g ( θ ) ∑ θ f ( x ∣ θ ) g ( θ ) , θ ^ M A P = arg max ⁡ θ f ( θ ∣ x ) = arg max ⁡ θ f ( x ∣ θ ) g ( θ ) , g ( θ ) 为先验分布,最大后验估计以最大似然估计相比,多了先验分布 g ( θ ) 项,相当于假设 g ( θ ) 为常数(广义分布不要求概率密度函数积分为 1 ) 无信息先验: θ ∈ [ 0 , 1 ] , g ( θ ) = 1 , f ( x ∣ θ ) = 1 2 π θ 2 e − x 2 2 θ 2 , x ∼ N ( 0 , θ 2 ) 最大后验估计:\\ f(\theta|x)=\frac{f(x|\theta)g(\theta)}{\sum\limits_\theta f(x|\theta)g(\theta)},\hat{\theta}_{MAP}=\argmax\limits_\theta f(\theta|x)=\argmax\limits_\theta f(x|\theta)g(\theta),g(\theta)为先验分布,最大后验估计以最大似然估计相比,多了先验分布g(\theta)项,相当于假设g(\theta)为常数(广义分布不要求概率密度函数积分为1)\\ 无信息先验:\theta\in[0,1],g(\theta)=1,f(x|\theta)=\frac{1}{\sqrt{2\pi\theta^2}}e^{-\frac{x^2}{2\theta^2}},x\sim N(0,\theta^2) 最大后验估计:f(θx)=θf(xθ)g(θ)f(xθ)g(θ),θ^MAP=θargmaxf(θx)=θargmaxf(xθ)g(θ),g(θ)为先验分布,最大后验估计以最大似然估计相比,多了先验分布g(θ)项,相当于假设g(θ)为常数(广义分布不要求概率密度函数积分为1无信息先验:θ[0,1],g(θ)=1,f(xθ)=2πθ2 1e2θ2x2,xN(0,θ2)

β = θ 2 , β 的概率密度函数为 g ( β ) , ∫ A 1 g 1 ( β ) d β = ∫ A g ( θ ) d θ → g 1 ( θ 2 ) d θ 2 = g ( θ ) d θ → g 1 ( θ 2 ) = g ( θ ) 2 θ = 1 2 θ → g 1 ( β ) = 1 2 β , β 非均匀分布, x ∣ β ∼ N ( 0 , β ) \beta=\theta^2,\beta的概率密度函数为g(\beta),\int_{A_1}g_1(\beta)d\beta=\int_{A}g(\theta)d\theta\rightarrow g_1(\theta^2)d\theta^2=g(\theta)d\theta\rightarrow g_1(\theta^2)=\frac{g(\theta)}{2\theta}=\frac{1}{2\theta}\rightarrow g_1(\beta)=\frac{1}{2\sqrt{\beta}},\beta非均匀分布,x|\beta\sim N(0,\beta) β=θ2,β的概率密度函数为g(β)A1g1(β)dβ=Ag(θ)dθg1(θ2)dθ2=g(θ)dθg1(θ2)=2θg(θ)=2θ1g1(β)=2β 1,β非均匀分布,xβN(0,β)

4、蒙特卡洛方法、bootstrap方法、EM算法

蒙特卡洛方法: X ∼ U ( a , b ) , Y ∼ U ( 0 , c ) , i f   Y ≤ f ( x ) : c o u n t + 1 , c o u n t t o t a l = ∫ a b f d x c ( b − a ) M C M C 、 g i b b s 采样 蒙特卡洛方法:X\sim U(a,b),Y\sim U(0,c),if\:Y\leq f(x): count+1,\frac{count}{total}=\frac{\int_a^bfdx}{c(b-a)}\\ MCMC、gibbs采样 蒙特卡洛方法:XU(a,b),YU(0,c),ifYf(x):count+1,totalcount=c(ba)abfdxMCMCgibbs采样

b o o t s t r a p 方法: x 1 , x 2 , . . . , x 50 , μ 0 ^ = ∑ i = 1 50 x i 50 = f ( x 1 , x 2 , . . . , x 50 ) , μ 0 ^ ∼ ? , x i ∼ g ( θ ) 通过数据算分布 J a c k k n i f e 方法: x 2 , . . . , x 50 → μ 1 ^ = ∑ − 1 x i 49 x 1 , x 3 , . . . , x 50 → μ 1 ^ = ∑ − 2 x i 49 . . . μ 50 ^ = ∑ − 2 x i 49 通过 μ 1 ^ 、 . . . 、 μ 50 ^ (互相不独立)获得 μ 1 ^ 的分布 对参数基于样本的估计 T = g ( x 1 , x 2 , . . . , x n ) , E ( T ) = 总体参数则估计是无偏的, J a c k k n i f e 方法通过 n μ 0 ^ − n μ i ^ 去除偏差,但是估计离的都很近 b o o t s t r a p 方法 : 有放回的抽样 n 次 , 形成一个样本集,重复 k 次获得 μ i ^ , μ i ^ 的分布当做 μ 0 ^ 的分布,独立性更好 bootstrap方法:x_1,x_2,...,x_{50},\hat{\mu_0}=\frac{\sum\limits_{i=1}^{50}x_i}{50}=f(x_1,x_2,...,x_{50}),\hat{\mu_0}\sim?,x_i\sim g(\theta)\\ 通过数据算分布\\ Jackknife方法:x_2,...,x_{50}\rightarrow \hat{\mu_1}=\frac{\sum\limits_{-1} x_i}{49}\\ x_1,x_3,...,x_{50}\rightarrow \hat{\mu_1}=\frac{\sum\limits_{-2} x_i}{49}\\ ...\\ \hat{\mu_{50}}=\frac{\sum\limits_{-2} x_i}{49}\\ 通过 \hat{\mu_1}、...、 \hat{\mu_{50}}(互相不独立)获得 \hat{\mu_1}的分布\\ 对参数基于样本的估计T=g(x_1,x_2,...,x_n),E(T)=总体参数则估计是无偏的,Jackknife方法通过n \hat{\mu_{0}}-n \hat{\mu_{i}}去除偏差,但是估计离的都很近\\ bootstrap方法:有放回的抽样n次,形成一个样本集,重复k次获得\hat{\mu_i},\hat{\mu_i}的分布当做\hat{\mu_0}的分布,独立性更好 bootstrap方法:x1,x2,...,x50,μ0^=50i=150xi=f(x1,x2,...,x50),μ0^?,xig(θ)通过数据算分布Jackknife方法:x2,...,x50μ1^=491xix1,x3,...,x50μ1^=492xi...μ50^=492xi通过μ1^...μ50^(互相不独立)获得μ1^的分布对参数基于样本的估计T=g(x1,x2,...,xn),E(T)=总体参数则估计是无偏的,Jackknife方法通过nμ0^nμi^去除偏差,但是估计离的都很近bootstrap方法:有放回的抽样n,形成一个样本集,重复k次获得μi^μi^的分布当做μ0^的分布,独立性更好

E M 算法 P ( X , Z ∣ θ ) = L ( θ , X , Z ) , X 是观测, Z 与 X 有关但是没有被观测到, θ 时模型的参数 P ( x ∣ θ ) P ( ∣ θ ) = P ( x , θ ) P ( x , z , θ ) = P ( x , θ ) P ( z ∣ x , θ ) = P ( x , z ∣ θ ) P ( θ ) P ( x , z ∣ θ ) = P ( x ∣ θ ) P ( z ∣ x , θ ) l o g P ( x ∣ θ ) = l o g P ( x , z ∣ θ ) − l o g P ( z ∣ x , θ ) 假设已经给定 θ , l o g P ( x ∣ θ ) = l o g P ( x , z ∣ θ 0 ) − l o g P ( z ∣ x , θ 0 ) 等式左右两边对 Z 求积分求有等式 1 : l o g P ( x ∣ θ ) = ∑ Z P ( z ∣ x , θ 0 ) l o g P ( x , z ∣ θ ) − ∑ Z P ( z ∣ x , θ 0 ) l o g P ( z ∣ x , θ ) ,记 − ∑ P l o g P = H ( P ) 为熵, − ∑ Z P ( z ∣ x , θ 0 ) l o g P ( z ∣ x , θ ) = H ( θ 0 , θ ) G i b b s 不等式: H ( θ 0 , θ ) ≥ H ( θ 0 , θ 0 ) ≥ 0 ∑ Z P ( z ∣ x , θ 0 ) l o g P ( x , z ∣ θ ) = Q ( θ 0 , θ ) , l o g P ( x ∣ θ ) = P ( θ ) 等式 1 化为 P ( θ ) − P ( θ 0 ) = Q ( θ 0 , θ ) − Q ( θ 0 , θ 0 ) + H ( θ 0 , θ ) − H ( θ 0 , θ 0 ) 即有 Δ P = Δ Q − Δ H , Δ H ≥ 0 , 所以 Δ Q ≥ 0 可推出 Δ P ≥ 0 E : Q ( θ 0 , θ ) = E z ∣ x , θ 0 ( l o g L ( θ , x , z ) ) M : θ 1 = arg max ⁡ θ Q ( θ 0 , θ ) , 用 θ 1 代替原来的 θ 0 循环上述 E / M 步骤,最终 Q 越来越大, P 也越来越大,最终达到极大似然估计的效果。 具体例子: Z 表示男 1 女 0 , θ = ( μ 1 , μ 0 ) 表示分布的参数,先从 ( 0 , 0 ) 开始,不断迭代 E 、 M 得到新的 θ EM算法\\ P(X,Z|\theta)=L(\theta,X,Z),X是观测,Z与X有关但是没有被观测到,\theta时模型的参数\\ P(x|\theta)P(|\theta)=P(x,\theta)\\ P(x,z,\theta)=P(x,\theta)P(z|x,\theta)=P(x,z|\theta)P(\theta)\\ P(x,z|\theta)=P(x|\theta)P(z|x,\theta)\\ logP(x|\theta)=logP(x,z|\theta)-logP(z|x,\theta)\\ 假设已经给定\theta,logP(x|\theta)=logP(x,z|\theta_0)-logP(z|x,\theta_0)\\ 等式左右两边对Z求积分求有等式1:logP(x|\theta)=\sum\limits_Z P(z|x,\theta_0)logP(x,z|\theta)-\sum\limits_Z P(z|x,\theta_0)logP(z|x,\theta),记-\sum PlogP=H(P)为熵,-\sum\limits_Z P(z|x,\theta_0)logP(z|x,\theta)=H(\theta_0,\theta)\\ Gibbs不等式:H(\theta_0,\theta)\geq H(\theta_0,\theta_0)\geq0\\ \sum\limits_Z P(z|x,\theta_0)logP(x,z|\theta)=Q(\theta_0,\theta),logP(x|\theta)=P(\theta)\\ 等式1化为P(\theta)-P(\theta_0)=Q(\theta_0,\theta)-Q(\theta_0,\theta_0)+H(\theta_0,\theta)-H(\theta_0,\theta_0)\\ 即有\Delta P=\Delta Q-\Delta H,\Delta H\geq0,所以\Delta Q\geq0可推出\Delta P\geq0\\ E:Q(\theta_0,\theta)=E_{z|x,\theta_0}(logL(\theta,x,z))\\ M:\theta_1=\argmax\limits_\theta Q(\theta_0,\theta),用\theta_1代替原来的\theta_0\\ 循环上述E/M步骤,最终Q越来越大,P也越来越大,最终达到极大似然估计的效果。\\ 具体例子:Z表示男1女0,\theta=(\mu_1,\mu_0)表示分布的参数,先从(0,0)开始,不断迭代E、M得到新的\theta EM算法P(X,Zθ)=L(θ,X,Z),X是观测,ZX有关但是没有被观测到,θ时模型的参数P(xθ)P(θ)=P(x,θ)P(x,z,θ)=P(x,θ)P(zx,θ)=P(x,zθ)P(θ)P(x,zθ)=P(xθ)P(zx,θ)logP(xθ)=logP(x,zθ)logP(zx,θ)假设已经给定θ,logP(xθ)=logP(x,zθ0)logP(zx,θ0)等式左右两边对Z求积分求有等式1logP(xθ)=ZP(zx,θ0)logP(x,zθ)ZP(zx,θ0)logP(zx,θ),记PlogP=H(P)为熵,ZP(zx,θ0)logP(zx,θ)=H(θ0,θ)Gibbs不等式:H(θ0,θ)H(θ0,θ0)0ZP(zx,θ0)logP(x,zθ)=Q(θ0,θ)logP(xθ)=P(θ)等式1化为P(θ)P(θ0)=Q(θ0,θ)Q(θ0,θ0)+H(θ0,θ)H(θ0,θ0)即有ΔP=ΔQΔH,ΔH0,所以ΔQ0可推出ΔP0E:Q(θ0,θ)=Ezx,θ0(logL(θ,x,z))M:θ1=θargmaxQ(θ0,θ),θ1代替原来的θ0循环上述E/M步骤,最终Q越来越大,P也越来越大,最终达到极大似然估计的效果。具体例子:Z表示男10θ=(μ1,μ0)表示分布的参数,先从(0,0)开始,不断迭代EM得到新的θ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值