机器学习补充数学基础
- 呼叫泊松流
-
呼叫流
设 { N ( t ) } \{N(t) \} {N(t)}是强度为$\lambda 的 泊 松 过 程 , 定 义 的泊松过程,定义 的泊松过程,定义S_0=0 , 用 ,用 ,用S_n 表 示 第 n 个 事 件 发 生 的 时 刻 , 简 称 为 第 n 个 到 达 时 刻 或 者 第 n 个 呼 叫 时 , 由 于 表示第n个事件发生的时刻,简称为第n个到达时刻或者第n个呼叫时,由于 表示第n个事件发生的时刻,简称为第n个到达时刻或者第n个呼叫时,由于S_0,S_1,…,S_n 依 次 到 达 , 所 以 又 称 依次到达,所以又称 依次到达,所以又称{S_t } 为 泊 松 过 程 为泊松过程 为泊松过程{N(t) }$的呼叫流。 -
基本关系:
{ N ( t ) ≥ n } = { S n ≤ t } { N ( t ) = n } = { S n ≤ t < S n + 1 } \{N(t)\ge n \} = \{S_n\le t \}\\ \{N(t)= n \} = \{S_n\le t<S_{n+1} \} {N(t)≥n}={Sn≤t}{N(t)=n}={Sn≤t<Sn+1} -
等待间隔:设 { S n } \{S_n \} {Sn}是泊松过程 { N ( t ) } \{N(t) \} {N(t)}的呼叫流,引入 X n = S n − S n − 1 , n = 1 , 2 , . . . X_n=S_n-S_{n-1},n=1,2,... Xn=Sn−Sn−1,n=1,2,...,则 X n X_n Xn是第n-1个事件之后等待第n个事件发生的等待间隔,称为第n个等待间隔。
-
泊松过程 { N ( t ) } \{N(t) \} {N(t)}的等待间隔 X 1 , . . . , X n , . . . X_1,...,X_n,... X1,...,Xn,...是来自指数总体 ϵ ( λ ) \epsilon(\lambda) ϵ(λ)的随机变量。
证明:首先考虑 X 1 X_{1} X1 的分布,注意到事件 { X 1 > t } \left\{X_{1}>t\right\} {X1>t} 等价于事件 { N ( t ) = 0 } , \{N(t)=0\}, {N(t)=0}, 即 ( 0 , t ] (0, t] (0,t] 时间内没有事件发生。因此
P { X 1 > t } = P { N ( t ) = 0 } = e − λ t P\left\{X_{1}>t\right\}=P\{N(t)=0\}=\mathrm{e}^{-\lambda t} P{X1>t}=P{N(t)=0}=e−λt
从而
P { X 1 ⩽ t } = 1 − e − λ t P\left\{X_{1} \leqslant t\right\}=1-\mathrm{e}^{-\lambda t} P{X1⩽t}=1−e−λt
再来看 X 2 : X_{2}: X2:
P { X 2 > t ∣ X 1 = s } = P { N ( s + t ) − N ( s ) = 0 ∣ X 1 = s } = P N ( s + t ) − N ( s ) = 0 ( 独 立 增 量 性 ) = e − λ t P\left\{X_{2}>t \mid X_{1}=s\right\}=P\left\{N(s+t)-N(s)=0 \mid X_{1}=s\right\} =P{N(s+t)-N(s)=0}(独立增量性)=\mathrm{e}^{-\lambda t} P{X2>t∣X1=s}=P{N(s+t)−N(s)=0∣X1=s}=PN(s+t)−N(s)=0(独立增量性)=e−λt
所以 X 2 X_{2} X2 与 X 1 X_{1} X1 独立,且都服从参数为 λ \lambda λ 的指数分布。重复同样的推导,可得定理结论。
- 牛顿法和梯度下降法的比较
-
牛顿法:是通过求解目标函数的一阶导数为0时的参数,进而求出目标函数最小值时的参数。
收敛速度很快。
海森矩阵的逆在迭代过程中不断减小,可以起到逐步减小步长的效果。
缺点:海森矩阵的逆计算复杂,代价比较大,因此有了拟牛顿法。 -
梯度下降法:是通过梯度方向和步长,直接求解目标函数的最小值时的参数。
越接近最优值时,步长应该不断减小,否则会在最优值附近来回震荡。
作业
问题: 在数学最优化中,Rosenbrock函数是一个用来测试最优化算法性能的非凸函数,由Howard Harry Rosenbrock在1960年提出 。也称为Rosenbrock山谷或Rosenbrock香蕉函数。已知Rosenbrock函数的表达式为
f ( x ) = ( a − x 1 ) 2 + b ( x 2 − x 1 ) 2 f(x)=(a-x_1)^2+b(x_2-x_1)^2 f(x)=(a−x1)2+b(x2−x1)2
请编程完成以下工作:
(1)为
a
a
a和
b
b
b取不同的值,绘制3D表面。观察
a
a
a和
b
b
b的不同取值对曲面形状的影响
(2)编写算法找到全局最小值以及相应的最小解,并在3D图像中标出。分析算法的时空效率,给出运行时间