离散数据由单个数值组成,连续数据包含一个数据范围。
1.概率密度:
连续随机变量的概率分布可用概率密度函数描述。
- 概率密度是一种表示概率的方法,并非概率本身。概率密度指出各种范围内的概率的大小,通过概率密度函数进行描述
- 概率密度函数是图形中的一条线条,而概率则是这条线下方的一定数值范围内的面积。
- 类似于频数密度,概率密度通过面积表示表示概率,频数密度通过面积表示频数。
- 满足条件的面积即为所求概率,图形总面积必须等于1。
- 对于连续概率,必须通过计算概率密度曲线下方的面积得出概率。
2.正态分布——连续型数据的“理想模型”
正态分布具有对称钟形曲线,中央部位的概率密度最大,均值和中位数众数均位于中央位置。
X~N(μ, σ2):连续随机变量X服从均值为μ,标准差为σ的正态分布。
μ指出曲线中央位置,σ指出分散性,σ越大,图像越扁平,概率永远不等于0。
正态概率计算步骤:
- 确定分布参数与需求范围
- 标准化为Z~N(0, 1):
先移动均值,使μ=0;然后收窄方差Z=(x-μ)/σ - 利用标准分Z,用概率表查找概率
注意:概率表通常只给出P(Z<=z)形式的概率,注意灵活转化
用正态分布代替二项分布(当nq和np都大于5时)
如果随机变量X服从X~B(n,p)二项分布,且np和nq都大于5时,则可用X~N(np, npq)近似代替。
连续性修正:在计算前,将离散数值转换为连续标度时,范围数值必须进行连续性修正(下限加0.5,上限减0.5)
注意:如果区间是带等号,先消除等号再连续性修正,例如X<=10——X<11——X<10.5
用正态分布代替泊松分布(当λ大于15时)
如果X~Po(λ),且λ大于15,则可用X~N(λ,λ)近似代替。
注意连续性修正