按照网易云课堂可汗学院统计学进度,从第1课~34课
描述性统计
数据展示
- 条形图
- 线型图
- 饼图
- 箱线图
- 茎叶图
各种作用就不一一阐述了,比较基础。
数据数字特征
- 表示数据集中趋势:反映了一组数据向某一中心值靠拢的程度。
参考值:均值,分位数(中位数),众数 - 表示数据离散程度:反映一组数据的差异大小。
参考值: 方差,标准差,极差(全距),分位距 - 数据分布的测定:反映一组数据分布的形状
参考值:峰度,偏度
统计学基本知识
- 总体和样本
总体是统计学解决任何一个问题都有待认识客观事物的全体,称作统计总体。总体单位是组成总体的各个个体。样本则是为了认识总体而从总体中选取的实际观测的个体和。 - 二项分布
设在n重贝努利试验中,事件只有两种结果,且P(A)= b,二项分布记为X~B(n,b)
数字特征:数学期望E(x)= nb ,方差Var(x)= nb(1-b) - 泊松分布
通过二项分布推导所得,适用于描述单位时间内随机事件的平均发生次数
推导过程:
(图片如有侵权请联系我删除) - 大数定律
随着样本数的增加,样本均值会收敛于总体均值,或叫随机变量的期望值。
大数定律并不在意样本的数量(因为样本数量趋近于无穷),所以并不是说前面样本的均值高于期望值,后面样本的均值就低于期望值以来补偿。(这是“赌徒谬论”) - 正态分布
f
(
x
)
=
1
2
π
σ
∗
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2π}\sigma}*e^{\frac{-(x-\mu)^2}{2\sigma^2}}
f(x)=2πσ1∗e2σ2−(x−μ)2
如果要算正态分布的概率密度函数的面积,则需用到累积分布函数去求积分,这里不作演示。
这里
x
−
μ
σ
\frac{x-\mu}{\sigma}
σx−μ 称作标准z分数,表示该值距离均值几个标准差。
基于正态分布的三大分布
x
2
x^2
x2分布,t分布和F分布会在之后涉及。
6. 标准正态分布
当
μ
=
0
,
σ
2
=
1
\mu = 0,\sigma^2 = 1
μ=0,σ2=1 则为标准正态分布。任何正态分布都能通过标准化转换成标准正态分布。
7. 经验法则(3
σ
\sigma
σ法则)
对于正态分布
X
−
N
(
μ
,
σ
2
)
X - N(\mu,\sigma^2)
X−N(μ,σ2) 取值的概率,在区间
(
μ
−
σ
,
μ
+
σ
)
(\mu - \sigma,\mu + \sigma)
(μ−σ,μ+σ),
(
μ
−
2
σ
,
μ
+
2
σ
)
(\mu - 2\sigma,\mu + 2\sigma)
(μ−2σ,μ+2σ),
(
μ
−
3
σ
,
μ
+
3
σ
)
(\mu - 3\sigma,\mu + 3\sigma)
(μ−3σ,μ+3σ) 内取值的概率分别为68.3%,95.4%,99.7%。