在毕业设计中要做一个异常值剔除的步骤。所以看了一篇paper,Detection of Outliers in Navigation Sensor Measurements文中有提到
For a Gaussian statistics, large residuals are exponentially rare, and outliers are not an issue. Unfortunately, the nature rarely follows Mr. Gauss; any hopes to salvage the situation by invoking the Central Limit Theorem are crushed by a Gaussian’s extremely slow convergence at the tails. In practice, “fat tails” are quite common and are at the root cause of solution errors due to outliers.
收到这一启发,希望去理解“中心极限定律”。于是便看到知乎的这篇文章:https://www.zhihu.com/question/22913867
群众的眼睛是雪亮的,第一个回答是最易于理解的。
它认为:
1、大数定律和中心极限定理可以看做随机变量的零阶和一阶“泰勒展开”其中大数定律是“随机变量”的零阶估计,中心极限定理是在大数定律成立的前提下的“一阶导数”。
2、大数定律负责给出估计——期望,中心极限定理负责给出大数定律估计的误差。
3、通过泰勒展开我们可以对中心极限定理的应用有一个直观的估计。为了使得泰勒展开成立,我们假设了高阶小量 op(n√std(X1)) 在取平均(除以 n 后)是可以忽略的。为了使得这一点成立,我们至少需要样本量和方差在同一个数量级或者更大。
4、其实我们还可以进行更高阶的展开,貌似三阶展开对应的统计量叫做skewness,wiki上常用分布的词条都会给出这一数值。不过实际应用中中心极限定理已经足够,所以通常不需要。
Ditian Deng的回答也很好,就是偏向理论。在理解它的回答的时候需要理解依概率收敛和依分布收敛以及概率空间等概念。
https://www.zhihu.com/question/26736727
https://www.zhihu.com/question/20642770/answer/33191096
然后,大数定律估计的误差的分布描述中的
然后通过以下公式来计算标准误差
具体的应用可参考
https://www.zhihu.com/question/31593033/answer/102375277
中心极限定理的直观动画参考
http://onlinestatbook.com/stat_sim/sampling_dist/index.html