2５、机器学习数学基础：概率论-CSDN博客

本文链接：https://blog.csdn.net/weixin_45217685/article/details/132435343

1、随机变量分布

$cdf累积分布函数F(\theta)\\ pdf概率密度函数f(\theta)\\ p(\theta_1\leq x\leq \theta_2)=\int_{\theta_1}^{\theta_2} f(\theta)d\theta=F(\theta_2)-F(\theta_1)\\ X、Y独立，P(X=x,Y=y)=P(X=x)P(Y=y)\\ P(X\in \Omega_1 ,Y\in \Omega_2)=P(X=x)P(Y=y)\\ X、Y\:idd:独立同分布$

2、常见分布

$bernoulli分布：X\sim B(1,p)\\ 二项分布：X\sim B(n,p)，X\in[0,1,...,n]，p(x=k)=C_n^kp^k(1-p)^{n-k}\\ n\rightarrow\infty，p\rightarrow0，np=\lambda\\ B(n,p)\rightarrow P(\lambda) 为poisson分布：P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\\ 指数分布：p(x=\theta)=\lambda k^{-\lambda \theta}\\ 正态分布：f(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

$全概率公式P(B)=\sum P(A_j) P(B|A_j)\\ 逆概率P(A_j|B)=\frac{P(A_jB)}{P(B)}=\frac{P(B|A_j)P(A_j)}{\sum P(A_i) P(B|A_i)}$
$离散情况E(X)=\sum\limits_{i=1}^nx_iP(x=x_i)\\ 连续情况E(X)=\int_\Omega xf(x)dx\\ Eg(X)=\int_\Omega g(x)f(x)dx\\ 方差：\sigma^2=E(x-\mu)^2=Ex^2-(Ex)^2\\ 偏度：E(x-\mu)^3\\ 峰度：E(x-\mu)^4\\ n阶矩：E(x-\mu)^n，如果两个函数的各阶矩都相同，可以认为函数是一样的\\ 协方差：\sigma_{xy}=E(X-\mu_X)(Y-\mu_Y)\\ 相关系数：\rho_{xy}=\frac{\sigma_{xy}}{\sqrt{\sigma_x^2\sigma_y^2}},-1\leq\rho_{xy}\leq1,独立可以推出相关系数为0，反之不成立\\ E(X|Y=y)=\int xf_{X|Y}(x|y)=\int x\frac{f(x,y)}{f(y)}dx=m(Y)\\ X、Y独立：E(g(X)|Y)=E(g(X))，E(g(X)h(Y)|Y)=h(Y)E(g(x)|Y)\\ E(E(g(X)|Y))=E(g(X))$

３、大数定律与中心极限理

$大数定律：x_i \:idd，均值为\mu，则有\frac{\sum\limits_{i=1}^nx_i}{n}\rightarrow\mu\\ 弱大数定律依概率收敛：\forall \epsilon>0，\lim\limits_{n\rightarrow \infty}P(|x_n-x|\geq \epsilon)=0,x_n\rightarrow x\\ {x_j}互不相关，cov(x_i,x_j)=0,\mu_j=E(x_j),var(x_i)\leq C\\ \frac{\sum\limits_{j=1}^n(x_j-\mu_j)}{n} \stackrel{P}{\longrightarrow}0，如果x_i是同一个分布，则有\frac{\sum\limits_{j=1}^n(x_j-\mu_j)}{n} \stackrel{P}{\longrightarrow}\mu\\ 点点收敛：P(\lim\limits_{n\rightarrow \infty}x_n=x)=1，x_i \:idd，均值为\mu，则有\frac{\sum\limits_{i=1}^nx_i}{n} \stackrel{a.s}{\longrightarrow}\mu\\ X_j\:iid,\mu=0,\sigma^2=1,n\rightarrow \infty,\frac{\sum\limits_{j=1}^nx_j}{\sqrt{n}} \stackrel{d}{\longrightarrow} Z\sim N(0,1)\\ X_j的cdf为F_j(x),x\in R,\lim\limits_{j\rightarrow \infty}F_j(x)=F(x),X_j\stackrel{d}{\longrightarrow}X\\ \\ \varphi_x(t)=Ee^{itx}=\int e^{itx}f(x)dx，欧拉公式：e^{r\theta}=cos\theta+isin\theta\\ \varphi_x(t)=E(cos\theta)+iE(sin\theta)\\ \varphi^k(t)=i^kE(x^ke^{itx})，\varphi^k(0)=i^kE(x^k)\\ X_j互相独立，Y=X_1+...+X_n，\varphi_Y(t)=\varphi_{X_1}(t)\varphi_{X_2}(t)...\varphi_{X_n}(t)\\ X\sim N(0,1)，\varphi_X(t)=\varphi(0)+\varphi'(0)t+0.5\varphi''(0)t^2+o(t^2)=1-0.5t^2+o(t^2)\\ Y=\frac{\sum{X_i}}{\sqrt{n}},\varphi_Y=(1-0.5t^2+o(t^2))^n\\ e^x=\lim\limits_{n\rightarrow\infty}(1+\frac{x}{n})^n,\varphi_Y=e^{-\frac{t^2}{2}}推出n\rightarrow \infty,Y\sim N(0,1)\\ \sum{X_i}\rightarrow N(\mu,\sigma^2)$

４、准确率召回率

在这里插入图片描述

$P-R曲线：Precision为Y轴，Recall为X轴,y随x的增长下降\\ ROC曲线：TPR为Y轴，FPR为X轴，TPR=Recall，FPR=\frac{FP}{FP+TN}，y随x的增长增长，曲线下面积是AUC。$

４、极大似然估计、最大后验估计

$极大似然估计：X_i、Y_i，模型的参数时\theta，观测之间相互独立\\ \prod \limits_{i=1}^nP(X_i,Y_i|\theta)=L(\theta)尽可能大，即有\frac{ \partial L(\theta)}{\partial\theta}=0\\ \hat{\theta}_{MLE}=\argmax\limits_\theta L(\theta)\\ 线性回归：\\\sum\limits_{i=1}^n\epsilon_i^2,Y=X\beta+\epsilon,\epsilon\sim N(0,\sigma^2)\\ n个观测:\hat{\epsilon}=(Y_i-X_i\beta_0)，p(\epsilon_i=\hat{\epsilon_i})=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{\hat{\epsilon_i}}{2\sigma^2}}\\ L=\prod\limits_{i=1}^np(\epsilon_i=\hat{\epsilon_i}))=(\:)^ne^{-\frac{\sum\hat{\epsilon_i}^2}{2\sigma^2}},要使得L最大，就是使得\sum\hat{\epsilon_i}^2最小，所以极大似然估计在线性回归中跟最小二乘等价。$

$最大后验估计：\\ f(\theta|x)=\frac{f(x|\theta)g(\theta)}{\sum\limits_\theta f(x|\theta)g(\theta)},\hat{\theta}_{MAP}=\argmax\limits_\theta f(\theta|x)=\argmax\limits_\theta f(x|\theta)g(\theta),g(\theta)为先验分布，最大后验估计以最大似然估计相比，多了先验分布g(\theta)项，相当于假设g(\theta)为常数（广义分布不要求概率密度函数积分为1）\\ 无信息先验：\theta\in[0,1],g(\theta)=1,f(x|\theta)=\frac{1}{\sqrt{2\pi\theta^2}}e^{-\frac{x^2}{2\theta^2}},x\sim N(0,\theta^2)$

$\beta=\theta^2,\beta的概率密度函数为g(\beta)，\int_{A_1}g_1(\beta)d\beta=\int_{A}g(\theta)d\theta\rightarrow g_1(\theta^2)d\theta^2=g(\theta)d\theta\rightarrow g_1(\theta^2)=\frac{g(\theta)}{2\theta}=\frac{1}{2\theta}\rightarrow g_1(\beta)=\frac{1}{2\sqrt{\beta}},\beta非均匀分布，x|\beta\sim N(0,\beta)$

４、蒙特卡洛方法、bootstrap方法、EM算法

$蒙特卡洛方法：X\sim U(a,b),Y\sim U(0,c),if\:Y\leq f(x): count+1,\frac{count}{total}=\frac{\int_a^bfdx}{c(b-a)}\\ MCMC、gibbs采样$

$bootstrap方法：x_1,x_2,...,x_{50},\hat{\mu_0}=\frac{\sum\limits_{i=1}^{50}x_i}{50}=f(x_1,x_2,...,x_{50}),\hat{\mu_0}\sim?,x_i\sim g(\theta)\\ 通过数据算分布\\ Jackknife方法：x_2,...,x_{50}\rightarrow \hat{\mu_1}=\frac{\sum\limits_{-1} x_i}{49}\\ x_1,x_3,...,x_{50}\rightarrow \hat{\mu_1}=\frac{\sum\limits_{-2} x_i}{49}\\ ...\\ \hat{\mu_{50}}=\frac{\sum\limits_{-2} x_i}{49}\\ 通过 \hat{\mu_1}、...、 \hat{\mu_{50}}（互相不独立）获得 \hat{\mu_1}的分布\\ 对参数基于样本的估计T=g(x_1,x_2,...,x_n),E(T)=总体参数则估计是无偏的，Jackknife方法通过n \hat{\mu_{0}}-n \hat{\mu_{i}}去除偏差，但是估计离的都很近\\ bootstrap方法:有放回的抽样n次,形成一个样本集，重复k次获得\hat{\mu_i}，\hat{\mu_i}的分布当做\hat{\mu_0}的分布，独立性更好$

$EM算法\\ P(X,Z|\theta)=L(\theta,X,Z),X是观测，Z与X有关但是没有被观测到，\theta时模型的参数\\ P(x|\theta)P(|\theta)=P(x,\theta)\\ P(x,z,\theta)=P(x,\theta)P(z|x,\theta)=P(x,z|\theta)P(\theta)\\ P(x,z|\theta)=P(x|\theta)P(z|x,\theta)\\ logP(x|\theta)=logP(x,z|\theta)-logP(z|x,\theta)\\ 假设已经给定\theta,logP(x|\theta)=logP(x,z|\theta_0)-logP(z|x,\theta_0)\\ 等式左右两边对Z求积分求有等式1：logP(x|\theta)=\sum\limits_Z P(z|x,\theta_0)logP(x,z|\theta)-\sum\limits_Z P(z|x,\theta_0)logP(z|x,\theta)，记-\sum PlogP=H(P)为熵，-\sum\limits_Z P(z|x,\theta_0)logP(z|x,\theta)=H(\theta_0,\theta)\\ Gibbs不等式：H(\theta_0,\theta)\geq H(\theta_0,\theta_0)\geq0\\ \sum\limits_Z P(z|x,\theta_0)logP(x,z|\theta)=Q(\theta_0,\theta)，logP(x|\theta)=P(\theta)\\ 等式1化为P(\theta)-P(\theta_0)=Q(\theta_0,\theta)-Q(\theta_0,\theta_0)+H(\theta_0,\theta)-H(\theta_0,\theta_0)\\ 即有\Delta P=\Delta Q-\Delta H,\Delta H\geq0,所以\Delta Q\geq0可推出\Delta P\geq0\\ E:Q(\theta_0,\theta)=E_{z|x,\theta_0}(logL(\theta,x,z))\\ M:\theta_1=\argmax\limits_\theta Q(\theta_0,\theta),用\theta_1代替原来的\theta_0\\ 循环上述E/M步骤，最终Q越来越大，P也越来越大，最终达到极大似然估计的效果。\\ 具体例子：Z表示男1女0，\theta=(\mu_1,\mu_0)表示分布的参数，先从(0,0)开始，不断迭代E、M得到新的\theta$