统计学知识

期望:随机变量的平均值

矩:

X X X n n n阶矩: μ n ′ = E X n \mu_n^\prime=EX^n μn=EXn

X X X n n n阶中心矩: μ n = E ( X − μ ) n \mu_n=E(X-\mu)^n μn=E(Xμ)n

X X X的2阶中心矩称为方差

三种收敛

  • 依概率收敛

    如果对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 lim ⁡ n → + ∞ P ( ∣ X n − X ∣ ≥ ϵ ) = 0 \displaystyle \lim_{n \to +\infty}P(|X_n-X|\ge\epsilon)=0 n+limP(XnXϵ)=0,或等价地, lim ⁡ n → + ∞ P ( ∣ X n − X ∣ < ϵ ) = 1 \displaystyle \lim_{n \to +\infty}P(|X_n-X|<\epsilon)=1 n+limP(XnX<ϵ)=1,则称随机变量序列 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn依概率收敛于随机变量 X X X

  • 弱大数定律

    设随机变量 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn独立同分布,且均值 μ \mu μ、方差 σ 2 \sigma^2 σ2存在,则对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 lim ⁡ n → + ∞ P ( ∣ X ‾ n − μ ∣ < ϵ ) = 1 \displaystyle \lim_{n \to +\infty}P(|\overline{X}_n-\mu|<\epsilon)=1 n+limP(Xnμ<ϵ)=1,即 X ‾ n \overline{X}_n Xn依概率收敛于 μ \mu μ

  • 殆必收敛(概率1收敛)

    是比依概率收敛更强的一种收敛,类似于函数列的点点收敛。

    如果对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 P ( lim ⁡ n → + ∞ ∣ X n − X ∣ < ϵ ) = 1 P(\displaystyle \lim_{n \to +\infty}|X_n-X|<\epsilon)=1 P(n+limXnX<ϵ)=1,则称随机变量序列 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn殆必收敛于随机变量 X X X

  • 强大数定律

    设随机变量 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn独立同分布,且均值 μ \mu μ、方差 σ 2 \sigma^2 σ2存在,则对任意 ϵ > 0 \epsilon>0 ϵ>0,都有 P ( lim ⁡ n → + ∞ ∣ X ‾ n − μ ∣ < ϵ ) = 1 P(\displaystyle \lim_{n \to +\infty}|\overline{X}_n-\mu|<\epsilon)=1 P(n+limXnμ<ϵ)=1,即 X ‾ n \overline{X}_n Xn殆必收敛于 μ \mu μ

  • 依分布收敛

    如果对 F X ( x ) F_X(x) FX(x)的任意连续点 x x x,都有 lim ⁡ n → + ∞ F X n ( x ) = F X ( x ) \displaystyle \lim_{n \to +\infty}F_{X_n}(x)=F_X(x) n+limFXn(x)=FX(x),则称随机变量序列 X 1 , X 2 , . . . , X n X_1,X_2, ...,X_n X1,X2,...,Xn依分布收敛于随机变量 X X X

  • 总结

    殆必收敛蕴含依概率收敛,殆必收敛和依概率收敛蕴含依分布收敛

大数定律与中心极限定理

依分布收敛

大数定律研究的是一系列随机变量 X n {X_n} Xn 的均值 X ‾ n = 1 n ∑ i = 1 n X i \overline X_n=\frac1n∑_{i=1}^nX_i Xn=n1i=1nXi 是否会依概率收敛于其期望 E X ‾ n E\overline X_n EXn 这个数值,而中心极限定理进一步研究 X ‾ n \overline X_n Xn 服从什么分布。若 X n {X_n} Xn 满足一定的条件,当 n n n足够大时, X ‾ n \overline X_n Xn 近似服从正态分布,这就是中心极限定理的主要思想,这也体现了正态分布的重要性与普遍性。

点估计

  • 定义:样本的任何一个函数 W ( X 1 , . . . , X n ) W(X_1,...,X_n) W(X1,...,Xn)称为一个点估计量,即任何一个统计量就是一个点估计量。

无偏性:估计量的数学期望等于总体参数;

有效性:方差越小越越有效;

一致性:当样本量趋于无穷时,估计值离真实值越近。

极大似然估计量(MLE)

对每个固定的样本点 x x x,令 θ ^ ( x ) \hat\theta(x) θ^(x)是参数 θ \theta θ的一个取值,它是的 L ( θ ∣ x ) L(\theta|x) L(θx)作为 θ \theta θ的函数在该处达到最大值。那么,基于样本 X X X的极大似然估计量就是 θ ^ ( X ) \hat\theta(X) θ^(X)

  • 一阶导数为0时极大值点的必要非充分条件

  • MLE既是相合估计也是有效估计

随机梯度下降和牛顿法

  • 随机梯度下降(SGD)是一种用于训练神经网络的优化算法,用于调整权重、更新参数,能在每次反向传播步骤之后使结果更接近最小值。SGD不同于单纯的梯度下降,因为其处理的是mini-batch,而非单个训练样本。牛顿法

  • 牛顿法是基于二阶泰勒展开来近似 f ( x ) f(x) f(x)

f ( x ) ≈ f ( x n ) + ( x − x n ) T ∇ f ( x n ) + 1 / 2 ( x − x n ) T H ( f ) ( x n ) ( x − x n ) 等价于: f ( x ) ≈ f ( x n ) + ( x − x n ) f ′ ( x 0 ) + 1 2 ! f ′ ′ ( x n ) ( x − x n ) 2 f(x)\approx f(x_n)+(x−x_n)^T∇f(x_n)+1/2(x−x_n)^TH(f)(x_n)(x−x_n)\\ 等价于:f(x)\approx f(x_n)+(x-x_n)f'(x_0)+\frac1{2!}f''(x_n)(x-x_n)^2 f(x)f(xn)+(xxn)Tf(xn)+1/2(xxn)TH(f)(xn)(xxn)等价于:f(x)f(xn)+(xxn)f(x0)+2!1f′′(xn)(xxn)2

  • 效率对比

    • 从收敛速度上看 ,牛顿法是二阶收敛,随机梯度下降是一阶收敛,牛顿法收敛速度更快。

    • SGD仅考虑方向,牛顿法不但考虑了方向还兼顾了步子的大小,其对步长的估计用的是二阶逼近。

    • 牛顿法仍然是局部算法,只是在局部上看的更细致。

  • 牛顿法的优缺点:

    • 优点:二阶收敛,收敛速度快。
    • 缺点:牛顿法是一种迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算复杂。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

葫芦娃啊啊啊啊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值