常见分布与假设检验
一般随机变量
随机变量包括:离散型(取值有限)和连续型(取值无限)。
离散型随机变量
概率质量函数(probability mass function),简称PMF。用来描述离散型随机变量分布律。
概率密度函数(probability density function),简称PDF。来描述连续型随机变量分布情况。
注意点:连续型随机变量在取任何固定值的概率都为0,因此讨论其在特定值上的概率是没有意义的,应当讨论其在某一个区间范围内的概率,这就用到了概率密度函数的概念。
累积分布函数 (cumulative distribution function),简称CDF。在数学上累积分布函数(CDF)是概率密度函数(PDF)的积分形式。
分布函数是定义域为R的一个普通函数,分布函数F(x)在点x处的函数值表示X落在区间(−∞,x]内的概率,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。
常见分布
离散型分布
二项分布:只有两种结果(成功/失败)的单次试验重复多次后成功次数的分布概率。
在n次试验中,单次试验成功率为p,失败率q=1-p,则出现成功次数的概率为:
P
(
X
=
x
)
=
C
n
x
p
x
q
n
−
x
P(X=x)=C_n^xp^xq^{n-x}
P(X=x)=Cnxpxqn−x
泊松分布的条件:
- 试验次数n趋向于无穷大
- 单次事件发生的概率p趋向于0
- np是一个有限的数值
一个服从泊松分布的随机变量X,在具有比率参数(rate parameter)λ (λ=np)的一段固定时间间隔内,事件发生次数为i的概率为:
P ( X = i ) = e − λ λ i i ! P(X=i)=e^{-\lambda}\frac{\lambda^i}{i!} P(X=i)=e−λi!λi
二项分布,泊松分布,正态分布的关系:
当n很大,p很小时,如n ≥ 100 and np ≤ 10时,二项分布可以近似为泊松分布。
当λ很大时,如λ≥1000时,泊松分布可以近似为正态分布。
当n很大时,np和n(1-p)都足够大时,如n ≥ 100 , np ≥10,n(1-p) ≥10时,二项分布可以近似为正态分布。
连续型分布
均匀分布(Uniform distribution):在定义域内概率密度函数处处相等的统计分布
均匀分布X的概率密度函数为:
f
(
x
)
=
{
1
b
−
a
,
a
≤
x
≤
b
0
,
o
t
h
e
r
s
f(x)=\begin{cases} \frac{1}{b-a}, & a \leq x \leq b \ 0, & others \end{cases}
f(x)={b−a1,a≤x≤b 0,others
正态分布: 也叫做高斯分布,是一种对称的分布。
概率密度呈现钟摆的形状,其概率密度函数为:
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
u
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x-u)^2}{2\sigma ^2}}
f(x)=2πσ1e2σ2−(x−u)2记为X ~ N(μ, σ2) , 其中μ为正态分布的均值,σ为正态分布的标准差
指数分布:被广泛用在描述一个特定事件发生所需要的时间,在指数分布随机变量的分布中,有着很少的大数值和非常多的小数值。
指数分布的概率密度函数为:
f
(
x
)
=
{
λ
e
−
λ
x
,
x
≥
0
,
x
<
0
f(x)=\begin{cases} \lambda e^{-\lambda x},x\geq 0,x<0 \end{cases}
f(x)={λe−λx,x≥0,x<0记为 X~E(λ), 其中λ被称为率参数(rate parameter),表示每单位时间发生该事件的次数。
分布函数为:
F
(
a
)
=
P
X
≤
a
=
1
−
e
−
λ
a
,
a
≥
0
F(a)=PX\leq a=1-e^{-\lambda a},a\geq 0
F(a)=PX≤a=1−e−λa,a≥0