学习笔记——概率论与数理统计(第二章)
学习来源:https://www.bilibili.com/video/av36206436/
第二章
2.1 随机变量的概念
定义: Ω \Omega Ω 是样本空间, X = X ( ω ) X=X(\omega) X=X(ω)是该样本空间上的实值函数(定义域是样本空间),X 称为随机变量,一般用 X , Y , Z , ξ , η , ς X,Y,Z,\xi,\eta,\varsigma X,Y,Z,ξ,η,ς表示
{ ω ∣ X ( ω ) = a } 事件: { X = a } 事件 \{\omega|X(\omega)=a\}事件:\{X=a\}事件 {ω∣X(ω)=a}事件:{X=a}事件
- 离散型:有限个/无限可列个
- 非离散型:主要研究连续型
2.2
2.2.1 离散型随机变量及其概率分布
X的所有取值
x
k
(
k
=
1
,
2
,
⋯
)
x_k(k=1,2,\cdots)
xk(k=1,2,⋯)(可列个)
P
(
X
=
x
k
)
=
P
k
P(X=x_k)=P_k
P(X=xk)=Pk 概率函数/概率分布
概率分布表:
X
1
0
P
1
2
1
2
\begin{array}{ccc} {X}&{1}&{0}\\ \hline {P}&{\cfrac{1}{2}}&{\cfrac{1}{2}}\\ \end{array}
XP121021
- P k ≥ 0 P_k\geq 0 Pk≥0
- ∑ P k = 1 \sum P_k=1 ∑Pk=1
连续型随机变量及其概率密度函数
- 每个小长方形的面积等于该组的频率
- 所有小长方形的面积之和等于1
- 介于 x=a 和 x=b 之间的面积近似等于 ( a , b ] 之间的频率
定义:非负可积函数
f
(
x
)
,
f
(
x
)
≥
0
,
a
≤
b
f ( x ),f(x)\geq 0,a\leq b
f(x),f(x)≥0,a≤b
P
(
a
<
x
≤
b
)
=
∫
a
b
f
(
x
)
d
x
\displaystyle P(a<x\leq b)=\int_a^bf(x)dx
P(a<x≤b)=∫abf(x)dx
x:连续型随机变量
f ( x ) :x 的概率分布密度函数
记作
X
∼
f
(
x
)
X\sim f(x)
X∼f(x)
性质:
- f ( x ) ≥ 0 f(x)\geq 0 f(x)≥0
- ∫ − ∞ + ∞ f ( x ) = 1 \displaystyle\int_{-\infin}^{+\infin}f(x)=1 ∫−∞+∞f(x)=1
- 连续型随机变量取个别值的概率为0
连续型 不考虑端点
P
(
a
≤
x
≤
b
)
=
P
(
a
<
x
≤
b
)
=
P
(
a
≤
x
<
b
)
=
P
(
a
<
x
<
b
)
P(a\leq x\leq b)=P(a<x\leq b)=P(a\leq x<b)=P(a<x<b)
P(a≤x≤b)=P(a<x≤b)=P(a≤x<b)=P(a<x<b)
概率为0的事件未必是不可能事件
概率为1的事件未必是必然事件
X取 x 附近值的概率大小
lim
Δ
x
→
0
P
(
x
<
X
<
x
+
Δ
x
)
Δ
x
=
∫
x
x
+
Δ
x
f
(
x
)
d
x
Δ
x
\displaystyle\lim\limits_{\Delta x\to 0} \frac{P(x<X<x+\Delta x)}{\Delta x}=\frac{\displaystyle\int_x^{x+\Delta x}f(x)dx}{\Delta x}
Δx→0limΔxP(x<X<x+Δx)=Δx∫xx+Δxf(x)dx
P
(
x
<
X
<
x
+
Δ
x
)
≈
f
(
x
)
Δ
x
P(x<X<x+\Delta x)\approx f(x)\Delta x
P(x<X<x+Δx)≈f(x)Δx
2.2.2 分布函数的定义
定义:
F
(
x
)
=
P
(
X
≤
x
)
F(x)=P(X\leq x)
F(x)=P(X≤x)(普通的实函数)
X 取值不超过 x 的概率
x
∈
(
−
∞
,
+
∞
)
,
F
(
x
)
∈
[
0
,
1
]
x\in(-\infin,+\infin),F(x)\in[0,1]
x∈(−∞,+∞),F(x)∈[0,1]
离散型的分布函数
性质:
- 0 ≤ F ( x ) ≤ 1 , x ∈ ( − ∞ , + ∞ ) 0\leq F(x)\leq 1,x\in(-\infin,+\infin) 0≤F(x)≤1,x∈(−∞,+∞)
- F ( x ) 不减: ∀ x 1 < x 2 , F ( x 1 ) ≤ F ( x 2 ) \forall x_1<x_2,F(x_1)\leq F(x_2) ∀x1<x2,F(x1)≤F(x2) lim x → + ∞ F ( x ) = F ( + ∞ ) = 1 \lim\limits_{x\to +\infin}F(x)=F(+\infin)=1 x→+∞limF(x)=F(+∞)=1 lim x → − ∞ F ( x ) = F ( − ∞ ) = 0 \lim\limits_{x\to -\infin}F(x)=F(-\infin)=0 x→−∞limF(x)=F(−∞)=0
- F ( x ) 是右连续的,至多有可列个间断点 lim x → a + F ( x ) = F ( a ) \lim\limits_{x\to a^+}F(x)=F(a) x→a+limF(x)=F(a)
公式:
P
(
X
≤
a
)
=
F
(
a
)
P(X\leq a)=F(a)
P(X≤a)=F(a)
P
(
X
>
a
)
=
1
−
F
(
a
)
P(X>a)=1-F(a)
P(X>a)=1−F(a)
P
(
a
<
X
≤
b
)
=
P
(
X
≤
b
)
−
P
(
X
≤
a
)
=
F
(
b
)
−
F
(
a
)
P(a<X\leq b)=P(X\leq b)-P(X\leq a)=F(b)-F(a)
P(a<X≤b)=P(X≤b)−P(X≤a)=F(b)−F(a)
P
(
X
=
a
)
=
F
(
a
)
−
F
(
a
−
0
)
P(X=a)=F(a)-F(a-0)
P(X=a)=F(a)−F(a−0)
P
(
a
≤
X
≤
b
)
=
F
(
b
)
−
F
(
a
−
0
)
P(a\leq X\leq b)=F(b)-F(a-0)
P(a≤X≤b)=F(b)−F(a−0)
P
(
X
<
a
)
=
F
(
a
−
0
)
P(X<a)=F(a-0)
P(X<a)=F(a−0)
P
(
X
≥
a
)
=
1
−
F
(
a
−
0
)
P(X\geq a)=1-F(a-0)
P(X≥a)=1−F(a−0)
连续型的分布函数
F ( x ) = P ( X ≥ x ) = ∫ − ∞ x f ( t ) d t F(x)=P(X\geq x)=\displaystyle\int_{-\infin}^xf(t)dt F(x)=P(X≥x)=∫−∞xf(t)dt
2.2.3 常见的分布
离散型常见分布
0-1分布
X
1
0
P
p
1
−
p
\begin{array}{ccc} {X}&{1}&{0}\\ \hline {P}&{p}&{1-p}\\ \end{array}
XP1p01−p
P
(
X
=
k
)
=
p
k
(
1
−
p
)
1
−
k
P(X=k)=p^k(1-p)^{1-k}
P(X=k)=pk(1−p)1−k(二项分布的特例)
- 有两种结果
- 试验只做一次
几何分布
P ( A ) = p
第 k 次首次发生,前 k − 1 次未发生
P
(
X
=
k
)
=
(
1
−
p
)
k
−
1
p
k
,
k
=
0
,
1
,
2
,
⋯
P(X=k)=(1-p)^{k-1}p^k,k=0,1,2,\cdots
P(X=k)=(1−p)k−1pk,k=0,1,2,⋯
X
∼
G
(
p
)
X\sim G(p)
X∼G(p)
二项分布
P(A)=p
n 次试验,发生了 k 次
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
⋯
,
n
P(X=k)=C_n^kp^k(1-p)^{n-k}, k=0,1,2,\cdots,n
P(X=k)=Cnkpk(1−p)n−k,k=0,1,2,⋯,n
X
∼
B
(
n
,
p
)
X\sim B(n,p)
X∼B(n,p)
n = 1 时,
P
(
X
=
k
)
=
C
1
k
p
k
(
1
−
p
)
1
−
k
,
k
=
0
,
1
P(X=k)=C_1^kp^k(1-p)^{1-k},k=0,1
P(X=k)=C1kpk(1−p)1−k,k=0,1(0-1分布)
最可能值:
- ( n + 1 ) p 不为整数,[(n + 1)p]达到最大值
- ( n + 1 ) p 为整数,( n + 1 ) p 和( n + 1 ) p + 1都是最大值
泊松分布
P
(
X
=
k
)
=
λ
k
k
!
e
−
λ
,
k
=
1
,
2
,
3
,
⋯
P(X = k)= \cfrac{\lambda^k}{k!}e^{-\lambda},k = 1,2,3,\cdots
P(X=k)=k!λke−λ,k=1,2,3,⋯
λ
>
0
\lambda>0
λ>0
X
∼
P
(
λ
)
X\sim P(\lambda)
X∼P(λ)
电台收到的呼叫次数,公用设施(候车,收银台,一员挂号处)
计算方式:查表
二项分布可以用泊松分布近似
条件:n 较大,p 较小,np 适中(
n
≥
100
,
n
p
≤
10
n\geq100,np\leq10
n≥100,np≤10)
超几何分布
定义:N 个元素,
N
1
N_1
N1 个属于第一类,
N
2
N_2
N2 个属于第二类,取 n 个,X:n 个中属于第一类的个数
P
(
X
=
k
)
=
C
N
1
k
C
N
2
n
−
k
C
N
n
,
k
=
0
,
1
,
2
,
⋯
,
min
{
n
,
N
1
}
\displaystyle P(X=k)=\frac{C_{N_1}^kC_{N_2}^{n-k}}{C_N^n},k=0,1,2,\cdots,\min\{n,N_1\}
P(X=k)=CNnCN1kCN2n−k,k=0,1,2,⋯,min{n,N1}
超几何分布可以用来描述不放回抽样的实验
当 N 很大,n 相对 N 很小时,
p
=
M
N
p=\frac{M}{N}
p=NM 改变甚微,不放回抽样可以看作放回抽样
P
(
X
=
k
)
=
C
M
k
C
N
−
M
n
−
k
C
N
n
≈
C
n
k
p
k
(
1
−
p
)
n
−
k
\displaystyle P(X=k)=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}\approx C_n^kp^k(1-p)^{n-k}
P(X=k)=CNnCMkCN−Mn−k≈Cnkpk(1−p)n−k
连续型常见分布
均匀分布
f
(
x
)
=
{
1
b
−
a
a ≤ x ≤ b
0
else
f(x)= \begin{cases} \cfrac{1}{b - a}& \text{a ≤ x ≤ b}\\ 0& \text{else} \end{cases}
f(x)=⎩
⎨
⎧b−a10a ≤ x ≤ belse
X ∼ U [ a , b ] X\sim U[a,b] X∼U[a,b]
分布函数:
F ( x ) = ∫ − ∞ x f ( t ) d t = { 1 x < a x − a b − a a ≤ x < b 1 x ≤ b F(x)=\displaystyle\int_{-\infin}^xf(t)dt= \begin{cases} 1& \text{x < a}\\ \cfrac{x - a}{b - a}& \text{a ≤ x < b}\\ 1& \text{x ≤ b} \end{cases} F(x)=∫−∞xf(t)dt=⎩ ⎨ ⎧1b−ax−a1x < aa ≤ x < bx ≤ b
X
∼
[
a
,
b
]
,
[
c
,
d
]
⊂
[
a
,
b
]
X\sim[a,b],[c,d]\subset[a,b]
X∼[a,b],[c,d]⊂[a,b]
P
(
c
≤
x
≤
d
)
=
∫
c
d
1
b
−
a
d
t
=
d
−
c
b
−
a
P(c\leq x\leq d)=\displaystyle\int_c^d\frac{1}{b-a}dt=\frac{d-c}{b-a}
P(c≤x≤d)=∫cdb−a1dt=b−ad−c
落在[a, b]上任意子区间的概率与子区间的长度成正比,与子区间的位置无关
指数分布
f
(
x
)
=
{
λ
e
−
λ
x
x > 0
0
x ≤ 0
f(x)= \begin{cases} \lambda e^{-\lambda x} & \text{x > 0}\\ 0 & \text{x ≤ 0} \end{cases}
f(x)={λe−λx0x > 0x ≤ 0
λ > 0 , X ∼ E x p ( λ ) \lambda \gt 0, X\sim E_{xp}(\lambda) λ>0,X∼Exp(λ)
F ( x ) = { 1 − e − λ x x > 0 0 x ≤ 0 F(x)= \begin{cases} 1 - e^{-\lambda x} & \text{x > 0}\\ 0 & \text{x ≤ 0} \end{cases} F(x)={1−e−λx0x > 0x ≤ 0
服务系统的服务时间,电话的通话时间,消耗性产品的寿命
正态分布
密度函数:
ϕ
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
,
−
∞
<
x
<
+
∞
\phi(x)=\displaystyle\frac{1}{\sqrt{2\pi}\sigma}e^{-\displaystyle\frac{(x-\mu)^2}{2\sigma^2}},-\infin<x<+\infin
ϕ(x)=2πσ1e−2σ2(x−μ)2,−∞<x<+∞
记作 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)
已知 ∫ − ∞ + ∞ e − x 2 d x \displaystyle\int_{-\infin}^{+\infin}e^{-x^2}dx ∫−∞+∞e−x2dx(高数知识)
则有:
∫ − ∞ + ∞ Φ ( x ) d x = ∫ − ∞ + ∞ 1 2 π σ e − ( x − μ ) 2 2 σ 2 d x = 1 2 π σ ∫ − ∞ + ∞ e − ( x − μ ) 2 2 σ 2 d x = 2 σ 2 π σ ∫ − ∞ + ∞ e − ( x − μ 2 σ ) 2 d ( x − μ 2 σ ) = 1 π π = 1 \displaystyle\int_{-\infin}^{+\infin}\Phi(x)dx\\ =\displaystyle\int_{-\infin}^{+\infin}\displaystyle\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\\ =\displaystyle\frac{1}{\sqrt{2\pi}\sigma}\displaystyle\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx\\ =\displaystyle\frac{\sqrt{2}\sigma}{\sqrt{2\pi}\sigma}\displaystyle\int_{-\infin}^{+\infin}e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2}d(\frac{x-\mu}{\sqrt{2}\sigma})\\ =\frac{1}{\sqrt{\pi}}\sqrt{\pi}\\ =1 ∫−∞+∞Φ(x)dx=∫−∞+∞2πσ1e−2σ2(x−μ)2dx=2πσ1∫−∞+∞e−2σ2(x−μ)2dx=2πσ2σ∫−∞+∞e−(2σx−μ)2d(2σx−μ)=π1π=1
分布函数:
Φ ( x ) = 1 2 π σ ∫ − ∞ x e − ( x − μ ) 2 2 σ 2 d t \Phi(x)=\displaystyle\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^xe^{-\frac{(x-\mu)^2}{2\sigma^2}}dt Φ(x)=2πσ1∫−∞xe−2σ2(x−μ)2dt
性质:
- y = ϕ ( x ) y=\phi(x) y=ϕ(x) 以 x = μ x=\mu x=μ 为对称轴
- x = μ x=\mu x=μ 时, ϕ ( x ) \phi(x) ϕ(x) 取最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2πσ1
- y = ϕ ( x ) y=\phi(x) y=ϕ(x) 以 x 轴为渐近线, x = μ ± σ x=\mu\pm\sigma x=μ±σ 时有拐点
- σ σ \sigmaσ σσ 固定, μ \mu μ 变化:图像左右移动
- μ \mu μ 固定, σ \sigma σ 变化: σ \sigma σ变小,最高点上移(变陡); σ \sigma σ 变大,最高点下移(变缓)
标准正态分布:
μ
=
0
,
σ
=
1
\mu=0,\sigma=1
μ=0,σ=1
ϕ
0
(
x
)
=
1
2
π
e
−
x
2
2
,
−
∞
<
x
<
+
∞
\phi_0(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infin<x<+\infin
ϕ0(x)=2π1e−2x2,−∞<x<+∞
Φ
0
(
x
)
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
\Phi_0(x)=\frac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infin}^xe^{-\frac{t^2}{2}}dt
Φ0(x)=2π1∫−∞xe−2t2dt
性质:
y 轴为对称轴(偶函数)
ϕ
0
(
x
)
=
ϕ
0
(
−
x
)
\phi_0(x)=\phi_0(-x)
ϕ0(x)=ϕ0(−x)
Φ
0
(
−
x
)
=
1
−
Φ
0
(
x
)
\Phi_0(-x)=1-\Phi_0(x)
Φ0(−x)=1−Φ0(x)
如果一个指标的影响因素有很多,每个因素起的作用都不太大,则这个指标服从正态分布
一般正态分布向标准正态分布转化:
ϕ
(
x
)
=
1
σ
ϕ
0
(
x
−
μ
σ
)
\phi(x)=\displaystyle\frac{1}{\sigma}\phi_0(\frac{x-\mu}{\sigma})
ϕ(x)=σ1ϕ0(σx−μ)
Φ
(
x
)
=
Φ
0
(
x
−
μ
σ
)
\Phi(x)=\displaystyle\Phi_0(\frac{x-\mu}{\sigma})
Φ(x)=Φ0(σx−μ)
X
∼
N
(
μ
,
σ
2
)
X∼N(μ,σ^2)
X∼N(μ,σ2)
P
(
∣
X
−
μ
∣
<
σ
)
=
0.6826
P(|X-\mu|<\sigma)=0.6826
P(∣X−μ∣<σ)=0.6826
P
(
∣
X
−
μ
∣
<
2
σ
)
=
0.9544
P(|X-\mu|<2\sigma)=0.9544
P(∣X−μ∣<2σ)=0.9544
P
(
∣
X
−
μ
∣
<
3
σ
)
=
0.9974
P(|X-\mu|<3\sigma)=0.9974
P(∣X−μ∣<3σ)=0.9974
3σ准则:
如果一个系统设计时服从正态分布,在检验时不符合 3
σ
\sigma
σ 准则,则不合格
X∼(0,1),给定
α
(
0
<
α
<
1
)
\alpha(0<\alpha<1)
α(0<α<1),找到
u
α
u_\alpha
uα 满足
P
(
X
>
u
α
)
=
α
P(X>u_\alpha)=\alpha
P(X>uα)=α,
u
α
u_\alpha
uα 称为上
α
\alpha
α 分位数
u
0.05
=
1.645
u_{0.05}=1.645
u0.05=1.645
u
0.025
=
1.96
u_{0.025}=1.96
u0.025=1.96
u
0.01
=
2.33
u_{0.01}=2.33
u0.01=2.33
2.3
2.3.1 随机变量函数的分布
已知 X 是某分布,求Y = f ( X ) 是什么分布
离散型
例
已知:
X
7
8
9
10
P
0.1
0.3
0.4
0.2
\begin{array}{ccccc} {X}&{7}&{8}&{9}&{10}\\ \hline {P}&{0.1}&{0.3}&{0.4}&{0.2}\\ \end{array}
XP70.180.390.4100.2
Y = 4X
则有:
Y
28
32
36
40
P
0.1
0.3
0.4
0.2
\begin{array}{ccccc} {Y}&{28}&{32}&{36}&{40}\\ \hline {P}&{0.1}&{0.3}&{0.4}&{0.2}\\ \end{array}
YP280.1320.3360.4400.2
连续型
设 X 的密度函数是 f X ( x ) , y = g ( x ) , Y = g ( X ) f_X(x),y=g(x),Y=g(X) fX(x),y=g(x),Y=g(X)
- F Y ( x ) → F X ( x ) F_Y(x) →F_X (x) FY(x)→FX(x)
- 两边求导: f Y ( x ) ← f X ( x ) f_Y(x)\larr f_X(x) fY(x)←fX(x)