离散概率分布与连续概率分布的区别
对离散概率分布来说,我们关心的是取得一个特定数值的概率,而对连续概率分布来说,我们关心的是取得一个特定范围的概率。
概率密度函数
描述连续随机变量的概率分布。通过它可以求出一个数据范围内的某个连续变量的概率,它向我们指出该概率分布的形状。通过计算一个数值范围内的概率密度函数下方的面积,可得出该数值范围的概率。概率密度函数下方的总面积必须等于1。
处理连续数据时,所计算的是一个数值范围的概率。概率密度是一种用来表示连续型变量概率的方法。所以求概率就是求概率密度函数下的面积。
正态分布(高斯分布)
之所以被正态分布是是因为它的形态合乎理想。
正态分布的历史
第一次发现是棣莫弗对二项分布使用了Stifiling公式得出了正态分布的密度函数的形式。
后来拉普拉斯做了更多的分析,并把二项分布的正态近似推广到了任意 p的情况。
这便出现了棣莫弗—拉普拉斯中心极限定理,即二项分布以正态分布为其极限分布定律。
1805 年勒让德发表了最小二乘法,基本思想就是认为测量中有误差,所以所有的累积误差为
累积误差 = ∑(观测值−理论值)2 ∑ ( 观 测 值 − 理 论 值 ) 2
勒让德在论文中对最小二乘法的优良性做了几点说明:
最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而防止某一个极端误差取得支配地位
计算中只要求偏导后求解线性方程组,计算过程明确便捷
最小二乘可以导出算术平均值作为估计值
高斯发现了以正态误差分布为基础的最小二乘法。高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题, 由此我们可以对误差的大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名 高斯分布。