机器学习是实现人工智能的重要技术之一。在学习机器学习的过程中,必须要掌握一些基础的数学与统计知识。中心极限定理(CLT)是数理统计中最重要的定理之一,具有广泛的应用场景。准确理解中心极限定理背后深层次的含义,有助于打牢机器学习的基础。本篇文章将用最通俗的语言来揭示中心极限定理,并结合R语言,通过可视化的途径来还原这一定理。本文的结构安排将从中心极限定理的定义、案例分析、R语言还原、总结四个部分来展开。
中心极限定理
一、 定义
中心极限定理是指,给定足够大的样本量,无论变量在总体中的分布如何,变量均值的抽样分布都将近似于正态分布。详细来讲,给定一个任意分布的总体,从这个总体中抽取n个样本,总共随机抽取m次,计算这m次的样本的平均值,则这些平均值的分布是正态分布,并且这些平均值的均值近似等于总体均值,平均值的方差为总体方差除以n。
在这里,要把握以下关键点,
- 第一,总体的分布是任意的,可以是卡方分布,可以是指数分布,可以是均匀分布,可以是…….
- 第二,从总体中要抽n个样本,总共要抽m次,这里的m和n都要求越大越好”。