typora-root-url: tupian
3 常见分布与假设检验
1 一般随机变量
1.1 随机变量的两种类型
根据随机变量可能取值的个数分为离散型(取值有限)和连续型(取值无限)两类。
1.2 离散型随机变量
对于离散型随机变量,使用概率质量函数(probability mass function),简称PMF,来描述其分布律。
假定离散型随机变量X,共有n个取值, X 1 X_1 X1, X 2 X_2 X2, …, X n X_n Xn, 那么
P ( X = X n ) ≥ 0 P(X=X_n) \geq 0 P(X=Xn)≥0
Σ 1 n P ( X = X n ) = 1 \Sigma_{1}^{n} P(X=X_n) =1 Σ1nP(X=Xn)=1
用到PMF的例子:二项分布,泊松分布
1.3 连续型随机变量
对于连续型随机变量,使用概率密度函数(probability density function),简称PDF,来描述其分布情况。
连续型随机变量的特点在于取任何固定值的概率都为0,因此讨论其在特定值上的概率是没有意义的,应当讨论其在某一个区间范围内的概率,这就用到了概率密度函数的概念。
假定连续型随机变量X,f(x)为概率密度函数, 对于任意实数范围如[a,b],有
P { a ≤ X ≤ b } = ∫ a b f ( x ) d x P \lbrace a\leq X \leq b\rbrace = \int ^b_a f(x) {\rm d}x P{
a≤X≤b}=∫abf(x)dx
用到PDF的例子:均匀分布,正态分布,指数分布
对于连续型随机变量,通常还会用到累积分布函数 (cumulative distribution function),简称CDF,来描述其性质,在数学上CDF是PDF的积分形式。
分布函数F(x)在点x处的函数值表示X落在区间(−∞,x]内的概率,所以分布函数就是定义域为R的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。
2 常见分布
本节通过一些实际例子来认识各种不同的分布及其应用场景
2.1 离散型分布
2.1.1 二项分布(Binomial distribution)
二项分布可以认为是一种只有两种结果(成功/失败)的单次试验重复多次后成功次数的分布概率。
二项分布需要满足以下条件:
- 试验次数是固定的
- 每次试验都是独立的
- 对于每次试验成功的概率都是一样的
一些二项分布的例子:
- 销售电话成功的次数
- 一批产品中有缺陷的产品数量
- 掷硬币正面朝上的次数
- 在一袋糖果中取糖果吃,拿到红色包装的次数
在n次试验中,单次试验成功率为p,失败率q=1-p,则出现成功次数的概率为
P ( X = x ) = C n x p x q n − x P(X=x) = C_n^x p^x q^{n-x} P(X=x)=Cnxpxqn−x
2.1.2 泊松分布(Poisson distribution)
泊松分布是用来描述泊松试验的一种分布,满足以下两个特征的试验可以认为是泊松试验:
- 所考察的事件在任意两个长度相等的区间里发生一次的机会均等
- 所考察的事件在任何一个区间里发生与否和在其他区间里发生与否没有相互影响,即是独立的
泊松分布需要满足一些条件:
- 试验次数n趋向于无穷大
- 单次事件发生的概率p趋向于0
- np是一个有限的数值
泊松分布的一些例子:
- 一定时间段内,某航空公司接到的订票电话数
- 一定时间内,到车站等候公交汽车的人数
- 一匹布上发现的瑕疵点的个数
- 一定页数的书刊上出现的错别字个数
一个服从泊松分布的随机变量X,在具有比率参数(rate parameter)λ (λ=np)的一段固定时间间隔内,事件发生次数为i的概率为
P { X = i } = e − λ λ i i ! P\lbrace X= i \rbrace = e^{-λ} \frac{λ^i}{i!} P{
X=i}=e−λi!λi
2.1.3 二项分布,泊松分布,正态分布的关系
这三个分布之间具有非常微妙的关联。
当n很大,p很小时,如n ≥ 100 and np ≤ 10时,二项分布可以近似为泊松分布。
当λ很大时,如λ≥1000时,泊松分布可以近似为正态分布。
当n很大时,np和n(1-p)都足够大时,如n ≥ 100 , np ≥10,n(1-p) ≥10时,二项分布可以近似为正态分布。
2.1.4 其他离散型随机分布
除了二项分布和泊松分布以外,还有其他一些不太常用的离散型分布。
几何分布(Geometric distribution)
考虑独立重复试验,几何分布描述的是经过k次试验才首次获得成功的概率,假定每次成功率为p,
P { X = n } = ( 1 − p ) n − 1 p P\lbrace X= n \rbrace = {(1-p)}^{n-1} p P{
X=n}=(1−p)n−1p
负二项分布(Negative binomial distribution)
考虑独立重复试验,负二项分布描述的是试验一直进行到成功r次的概率,假定每次成功率为p,
P { X = n } = C n − 1 r − 1 p r ( 1 − p ) n − r P\lbrace X= n \rbrace = C_{n-1}^{r-1} p^r {(1-p)}^{n-r} P{
X=n}