前言
对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点,不适合基础学习。博客园中同步更新。
文章目录
- 人工智能数学课高等数学线性微积分数学教程笔记(目录)
- 人工智能数学课高等数学线性微积分数学教程笔记(1. 数学内容概述)
- 人工智能数学课高等数学线性微积分数学教程笔记(2. 一元函数微分学)
- 人工智能数学课高等数学线性微积分数学教程笔记(3. 线性代数基础)
- 人工智能数学课高等数学线性微积分数学教程笔记(4. 多元函数的微分学)
- 人工智能数学课高等数学线性微积分数学教程笔记(5. 线性代数高级)
- 人工智能数学课高等数学线性微积分数学教程笔记(6. 概率论)
- 人工智能数学课高等数学线性微积分数学教程笔记(7. 最优化)
6. 概率论
- 基本概念
-
用概率论建模,假设它服从某种概率分布
-
随机事件 (必然事件,不可能事件) 和随机事件概率
-
随机事件独立: p ( b ∣ a ) = p ( b ) p(b|a)=p(b) p(b∣a)=p(b) , p ( a , b ) = p ( a ) p ( b ) p(a,b)=p(a)p(b) p(a,b)=p(a)p(b), p ( a 1 , ⋯ , a n ) = ∏ i = 1 n p ( a i ) p(a_1,\cdots,a_n)=\prod\limits_{i=1}^{n}p(a_i) p(a1,⋯,an)=i=1∏np(ai)
-
随机变量:(1) 离散;(2) 连续,概率密度函数 f ( x ) ≥ 0 , ∫ − ∞ + ∞ f ( x ) d x = 1 f(x)\ge0,\int_{-\infty}^{+\infty}f(x)dx=1 f(x)≥0,∫−∞+∞f(x)dx=1
F ( y ) = p ( x ≤ y ) = ∫ − ∞ y f ( x ) d x , ∫ x 1 x 2 f ( x ) d x = F ( x 2 ) − F ( x 1 ) F(y)=p(x\le y)=\int_{-\infty}^{y}f(x)dx,\int_{x_1}^{x_2}f(x)dx=F(x_2)-F(x_1) F(y)=p(x≤y)=∫−∞yf(x)dx,∫x1x2f(x)dx=F(x2)−F(x1)
- 条件概率和贝叶斯公式
-
对于两个随机事件 a a a 和 b b b ,在 a a a 发生的情况下 b b b 发生的概率为 p ( b ∣ a ) = p ( a , b ) p ( a ) p(b|a)=\frac{p(a,b)}{p(a)} p(b∣a)=p(a)p(a,b)
-
贝叶斯公式: p ( a ∣ b ) = p ( a ) p ( b ∣ a ) p ( b ) p(a|b)=\frac{p(a)p(b|a)}{p(b)} p(a∣b)=p(b)p(a)p(b∣a), a a a 为因, b b b 是果,知道原因后结果发生的概率是先验概率,贝叶斯公式得到的是后验概率。
p ( b ) p ( a ∣ b ) = p ( a , b ) = p ( a ) p ( b ∣ a ) p(b)p(a|b)=p(a,b)=p(a)p(b|a) p(b)p(a∣b)=p(a,b)=p(a)p(b∣a)
-
最大化后验概率 MAP
- 数学期望和方差
-
数学期望就是概率意义的平均值
E ( x ) = ∑ x i p ( x i ) , E ( x ) = ∫ − ∞ + ∞ x f ( x ) d x E(x)=\sum x_ip(x_i),E(x)=\int_{-\infty}^{+\infty}xf(x)dx E(x)=∑xip(xi),E(x)=∫−∞+∞xf(x)dx
-
方差反应数据的波动程度
D ( x ) = ∑ ( x i − E ( x ) ) 2 p ( x i ) D(x)=\sum (x_i-E(x))^2p(x_i) D(x)=∑(xi−E(x))2p(xi)
D ( x ) = ∫ − ∞ + ∞ ( x − E ( x ) ) 2 f ( x ) d x D(x)=\int_{-\infty}^{+\infty} (x-E(x))^2f(x)dx D(x)=∫−∞+∞(x−E(x))2f(x)dx
-
有关性质
E ( a + b X ) = a + b E X E(a+bX)=a+bEX E(a+bX)=a+bEX
V a r X = E ( X − μ ) 2 = E ( X 2 ) − ( E ( X ) ) 2 VarX=E(X-\mu)^2=E(X^2)-(E(X))^2 VarX=E(X−μ)2=E(X2)−(E(X))2
- 常用分布
-
正态分布: σ \sigma σ 越大越矮胖
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x)=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^2}{2\sigma ^2}} f(x)=2πσ1e−2σ2(x−μ)2 -
均匀分布:
f ( x ) = { 1 b − a a ≤ x ≤ b 0 x < a , x > b f(x)=\left\{\begin{matrix} \frac{1}{b-a}\quad a\le x\le b\\ 0\quad x<a,x>b \end{matrix}\right. f(x)={b−a1a≤x≤b0x<a,x>b -
二项分布
p ( x = 1 ) = p , p ( x = 0 ) = 1 − p p(x=1)=p,p(x=0)=1-p p(x=1)=p,p(x=0)=1−p
- 随机向量
-
随机变量推广至随机向量
-
离散型: p ( x = x i ) p(\boldsymbol{x}=\boldsymbol{x}_i) p(x=xi) 向量取值为某一向量
-
连续型: f ( x ) ≥ 0 , ∭ f ( x ) d x = 1 f(\boldsymbol{x})\ge 0, \iiint f(\boldsymbol{x})d\boldsymbol{x}=1 f(x)≥0,∭f(x)dx=1,二维时: f ( x 1 , x 2 ) ≥ 0 , f ( x ) ≥ 0 , ∫ − ∞ + ∞ f ( x 1 , x 2 ) d x 1 d x 2 = 1 f(x_1,x_2)\ge 0, f(x)\ge0,\int_{-\infty}^{+\infty}f(x_1,x_2)dx_1dx_2=1 f(x1,x2)≥0,f(x)≥0,∫−∞+∞f(x1,x2)dx1dx2=1
-
随机变量的独立性: f ( x 1 , x 2 , ⋯ , x n ) = f ( x 1 ) f ( x 2 ) ⋯ f ( x n ) f(x_1,x_2,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n) f(x1,x2,⋯,xn)=f(x1)f(x2)⋯f(xn)
-
随机向量的常见分布:正态分布
f ( x ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) , x ∈ R n f(x)=\frac{1}{(2\pi)^{n\over 2}\left | \Sigma \right |^{1\over 2}}e^{-\frac{1}{2}(x-\mu)^T\Sigma ^{-1}(x-\mu)}\ ,x\in \mathbb{R}^n f(x)=(2π)2n∣Σ∣211e−21(x−μ)TΣ−1(x−μ) ,x∈Rn
Σ \Sigma Σ 是协方差矩阵。
- 协方差
-
对于两个随机变量:
c o v ( x 1 , x 2 ) = E ( ( x 1 − E ( x 1 ) ) ( x 2 − E ( x 2 ) ) ) c o v ( x 1 , x 2 ) = E ( x 1 x 2 ) − E ( x 1 ) E ( x 2 ) cov(x_1,x_2)=E((x_1-E(x_1))(x_2-E(x_2)))\\ cov(x_1,x_2)=E(x_1x_2)-E(x_1)E(x_2) cov(x1,x2)=E((x1−E(x1))(x2−E(x2)))cov(x1,x2)=E(x1x2)−E(x1)E(x2) -
协方差矩阵
[ x 1 x 1 x 1 x 2 ⋯ x 1 x n x 2 x 1 ⋱ ⋯ x 2 x n ⋮ ⋮ ⋱ ⋮ x n x 1 ⋯ ⋯ x n x n ] \begin{bmatrix} x_1x_1 & x_1x_2 & \cdots & x_1x_n\\ x_2x_1 & \ddots & \cdots & x_2x_n\\ \vdots & \vdots & \ddots & \vdots \\ x_nx_1 & \cdots & \cdots & x_nx_n \end{bmatrix} ⎣ ⎡x1x1x2x1⋮xnx1x1x2⋱⋮⋯⋯⋯⋱⋯x1xnx2xn⋮xnxn⎦ ⎤
- 最大似然估计
- 最大似然估计(maximum likelihood estimation, MLE),估计参数;
- 总似然: L ( θ ) = ∏ i = 1 l p ( x i ; θ ) L(\theta )= \prod\limits_{i=1}^{l}p(x_i;\theta ) L(θ)=i=1∏lp(xi;θ)
- 对数总似然: ln L ( θ ) = ln ∏ i = 1 l p ( x i ; θ ) = ∑ i = 1 l ln p ( x i ; θ ) \ln L(\theta )= \ln\prod\limits_{i=1}^{l}p(x_i;\theta )=\sum\limits_{i=1}^{l}\ln p(x_i;\theta ) lnL(θ)=lni=1∏lp(xi;θ)=i=1∑llnp(xi;θ)
- max ∑ i = 1 l ln p ( x i ; θ ) \max \sum\limits_{i=1}^{l}\ln p(x_i;\theta ) maxi=1∑llnp(xi;θ),对 θ \theta θ 求导让它对于0