如果已知分布函数,要求概率密度函数可以直接对分布函数求导。具体步骤是对每个区间内的分布函数分别求导,注意在转折点处需要用导数的左右极限来表示导数。对于已知分布函数求概率密度函数再求导的情况,分界点处的要求与一般的分段函数相同,需要注意以下几点:
- 分布函数在分界点处应该是连续的,否则概率密度函数在该点处将会有一个“跳跃”,这在概率论中是不合理的。
- 分布函数在分界点处的导数应该存在,这是因为我们要对分布函数求导得到概率密度函数,而导数不存在的点无法求导。
总之,需要满足概率密度函数的性质就可以。
- 非负性:概率密度函数在其定义域上始终非负,即对于所有的实数 x x x,有 f ( x ) ≥ 0 f(x) \geq 0 f(x)≥0。
- 归一性:概率密度函数的积分等于1,即 ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty} f(x) \, dx = 1 ∫−∞+∞f(x)dx=1。
- 区间概率:概率密度函数在某个区间上的积分表示该区间内事件发生的概率,即 P ( a ≤ X ≤ b ) = ∫ a b f ( x ) d x P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx P(a≤X≤b)=∫abf(x)dx。
- 概率为零:概率密度函数在单个点上的取值并不表示该点的概率,而是表示该点附近事件发生的“可能性密度”,即 P ( X = x ) = 0 P(X = x) = 0 P(X=x)=0。
这些性质确保了概率密度函数在概率论中的一致性和有效性。
以下举例说明:
例子
设随机变量 X X X 的分布函数为:
F ( x ) = { 0 , x < 0 1 4 x , 0 ≤ x < 1 1 2 , 1 ≤ x < 2 1 2 + 1 4 ( x − 2 ) , 2 ≤ x < 3 1 , x ≥ 3 F(x) = \begin{cases} 0, & x < 0 \\ \frac{1}{4}x, & 0 \leq x < 1 \\ \frac{1}{2}, & 1 \leq x < 2 \\ \frac{1}{2} + \frac{1}{4}(x - 2), & 2 \leq x < 3 \\ 1, & x \geq 3 \end{cases} F(x)=⎩ ⎨ ⎧0,41x,21,21+41(x−2),1,x<00≤x<11≤x<22≤x<3x≥3
我们要求 X X X 的概率密度函数。
解答
对分布函数 F ( x ) F(x) F(x) 求导数,得到概率密度函数 f ( x ) f(x) f(x):
- 当 x < 0 x < 0 x<0 时, f ( x ) = 0 f(x) = 0 f(x)=0(因为在这个区间内分布函数为常数)。
- 当 0 ≤ x < 1 0 \leq x < 1 0≤x<1 时, f ( x ) = 1 4 f(x) = \frac{1}{4} f(x)=41(分布函数为直线,斜率即为概率密度函数)。
- 当 1 ≤ x < 2 1 \leq x < 2 1≤x<2 时, f ( x ) = 0 f(x) = 0 f(x)=0(因为在这个区间内分布函数为常数)。
- 当 2 ≤ x < 3 2 \leq x < 3 2≤x<3 时, f ( x ) = 1 4 f(x) = \frac{1}{4} f(x)=41(分布函数为直线,斜率即为概率密度函数)。
- 当 x ≥ 3 x \geq 3 x≥3 时, f ( x ) = 0 f(x) = 0 f(x)=0(因为在这个区间内分布函数为常数)。
综上所述, X X X 的概率密度函数为:
f ( x ) = { 0 , x < 0 1 4 , 0 ≤ x < 1 0 , 1 ≤ x < 2 1 4 , 2 ≤ x < 3 0 , x ≥ 3 f(x) = \begin{cases} 0, & x < 0 \\ \frac{1}{4}, & 0 \leq x < 1 \\ 0, & 1 \leq x < 2 \\ \frac{1}{4}, & 2 \leq x < 3 \\ 0, & x \geq 3 \end{cases} f(x)=⎩ ⎨ ⎧0,41,0,41,0,x<00≤x<11≤x<22≤x<3x≥3
涉及知识点
概率密度函数、分布函数、导数定义。
我们来看一个定积分的例子,使用分部积分法来求解。
考虑定积分 ∫ 0 1 x e x d x \int_0^1 x e^x \, dx ∫01xexdx。
-
选择 u ( x ) u(x) u(x) 和 d v ( x ) dv(x) dv(x):
设 u ( x ) = x u(x) = x u(x)=x,因此 d u = d x du = dx du=dx。
设 d v ( x ) = e x d x dv(x) = e^x \, dx dv(x)=exdx,因此 v ( x ) = e x v(x) = e^x v(x)=ex。 -
应用分部积分公式:
分部积分公式为:
∫ u ( x ) d v ( x ) = u ( x ) v ( x ) − ∫ v ( x ) d u ( x ) \int u(x) \, dv(x) = u(x)v(x) - \int v(x) \, du(x) ∫u(x)dv(x)=u(x)v(x)−∫v(x)du(x)
在这里,我们有:
∫ 0 1 x e x d x = [ x e x ] 0 1 − ∫ 0 1 e x d x \int_0^1 x e^x \, dx = \left[ x e^x \right]_0^1 - \int_0^1 e^x \, dx ∫01xexdx=[xex]01−∫01exdx -
计算边界值:
首先计算 [ x e x ] 0 1 \left[ x e^x \right]_0^1 [xex]01:
[ x e x ] 0 1 = ( 1 ⋅ e 1 ) − ( 0 ⋅ e 0 ) = e − 0 = e \left[ x e^x \right]_0^1 = (1 \cdot e^1) - (0 \cdot e^0) = e - 0 = e [xex]01=(1⋅e1)−(0⋅e0)=e−0=e -
计算 ∫ 0 1 e x d x \int_0^1 e^x \, dx ∫01exdx:
这个积分是简单的,因为 e x e^x ex 的不定积分是 e x e^x ex:
∫ 0 1 e x d x = [ e x ] 0 1 = e 1 − e 0 = e − 1 \int_0^1 e^x \, dx = \left[ e^x \right]_0^1 = e^1 - e^0 = e - 1 ∫01exdx=[ex]01=e1−e0=e−1 -
组合结果:
所以我们可以得到:
∫ 0 1 x e x d x = e − ∫ 0 1 e x d x = e − ( e − 1 ) = e − e + 1 = 1 \int_0^1 x e^x \, dx = e - \int_0^1 e^x \, dx = e - (e - 1) = e - e + 1 = 1 ∫01xexdx=e−∫01exdx=e−(e−1)=e−e+1=1
因此,定积分 ∫ 0 1 x e x d x \int_0^1 x e^x \, dx ∫01xexdx 的结果是 1。
题目:
一手机用户几乎同时收到50个相互独立且同分布的WiFi信号 X 1 , X 2 , … , X 50 X_1, X_2, \ldots, X_{50} X1,X2,…,X50,且 X ∼ U [ 0 , 10 ] X \sim U[0, 10] X∼U[0,10],试用中心极限定理计算 P ( ∑ i = 1 50 X i > 300 ) P\left(\sum_{i=1}^{50} X_i > 300\right) P(∑i=150Xi>300)。
涉及知识点:
- 中心极限定理(Central Limit Theorem, CLT)
- 均匀分布(Uniform Distribution)
- 正态分布(Normal Distribution)
- 期望值和方差
- 标准正态分布表(Standard Normal Distribution Table)
题目解答:
-
定义随机变量和分布:
设每个WiFi信号强度 X i X_i Xi 服从均匀分布 U [ 0 , 10 ] U[0, 10] U[0,10],即:
f X ( x ) = { 1 10 0 ≤ x ≤ 10 0 otherwise f_X(x) = \begin{cases} \frac{1}{10} & 0 \le x \le 10 \\ 0 & \text{otherwise} \end{cases} fX(x)={10100≤x≤10otherwise
期望值 E ( X i ) E(X_i) E(Xi) 和方差 Var ( X i ) \text{Var}(X_i) Var(Xi) 为:
E ( X i ) = 0 + 10 2 = 5 E(X_i) = \frac{0 + 10}{2} = 5 E(Xi)=20+10=5Var ( X i ) = ( 10 − 0 ) 2 12 = 100 12 = 25 3 \text{Var}(X_i) = \frac{(10 - 0)^2}{12} = \frac{100}{12} = \frac{25}{3} Var(Xi)=12(10−0)2=12100=325
-
应用中心极限定理:
-
中心极限定理
中心极限定理(Central Limit Theorem, CLT)是概率论和统计学中一个重要的定理,它描述了在某些条件下,许多独立随机变量的均值分布趋近于正态分布的性质。具体来说,中心极限定理表明,对于任意一个具有有限期望值和方差的独立同分布随机变量序列,当样本量足够大时,其样本均值的分布将近似服从正态分布,无论原始变量的分布形式如何。
中心极限定理的数学表述
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn 是一组独立同分布的随机变量,每个随机变量的期望值为 E ( X i ) = μ E(X_i) = \mu E(Xi)=μ,方差为 Var ( X i ) = σ 2 \text{Var}(X_i) = \sigma^2 Var(Xi)=σ2。定义样本均值为:
X ˉ = 1 n ∑ i = 1 n X i \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i Xˉ=n1i=1∑nXi中心极限定理表明,当 n → ∞ n \to \infty n→∞ 时,样本均值 X ˉ \bar{X} Xˉ 的分布趋近于正态分布,形式化地说:
X ˉ − μ σ / n → d N ( 0 , 1 ) \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) σ/nXˉ−μdN(0,1)
即
X ˉ ∼ N ( μ , σ 2 n ) \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) Xˉ∼N(μ,nσ2)更一般地,对于样本和 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^{n} X_i Sn=∑i=1nXi,有:
S n − n μ σ n → d N ( 0 , 1 ) \frac{S_n - n\mu}{\sigma \sqrt{n}} \xrightarrow{d} N(0, 1) σnSn−nμdN(0,1)
即
S n ∼ N ( n μ , n σ 2 ) S_n \sim N(n\mu, n\sigma^2) Sn∼N(nμ,nσ2)中心极限定理的条件
- 独立性:随机变量 X i X_i Xi 彼此独立。
- 同分布:随机变量 X i X_i Xi 具有相同的分布。
- 有限期望和方差:随机变量 X i X_i Xi 具有有限的期望值 μ \mu μ 和方差 σ 2 \sigma^2 σ2。
中心极限定理的重要性
- 近似计算:中心极限定理允许我们用正态分布来近似许多随机变量的分布,从而简化了复杂问题的处理。
- 抽样分布:在统计推断中,中心极限定理是抽样分布理论的基础,解释了样本均值的分布特性。
- 广泛应用:中心极限定理在自然科学、工程学、经济学、金融学等领域有广泛应用,用于分析和预测。
中心极限定理的示例
假设有一个包含 n n n 个独立同分布随机变量的样本,每个变量 X i X_i Xi 服从均匀分布 U [ 0 , 10 ] U[0, 10] U[0,10],并且我们希望计算样本总和大于某个值的概率。通过中心极限定理,我们可以将样本总和的分布近似为正态分布,从而简化计算过程。
总结
中心极限定理是概率论中的一个基本定理,它揭示了独立同分布随机变量的样本均值在样本量足够大时趋近于正态分布的现象。该定理在统计推断和实际应用中具有重要意义,能够帮助我们在处理复杂随机过程时进行简化和近似计算。根据中心极限定理,当 n n n 足够大时, X i X_i Xi 的和 ∑ i = 1 n X i \sum_{i=1}^{n} X_i ∑i=1nXi 近似服从正态分布:
-
S n = ∑ i = 1 n X i ∼ N ( n E ( X i ) , n Var ( X i ) ) S_n = \sum_{i=1}^{n} X_i \sim N\left(nE(X_i), n\text{Var}(X_i)\right) Sn=i=1∑nXi∼N(nE(Xi),nVar(Xi))
在这里, n = 50 n = 50 n=50:
S 50 ∼ N ( 50 ⋅ 5 , 50 ⋅ 25 3 ) = N ( 250 , 1250 3 ) S_{50} \sim N\left(50 \cdot 5, 50 \cdot \frac{25}{3}\right) = N\left(250, \frac{1250}{3}\right) S50∼N(50⋅5,50⋅325)=N(250,31250) -
S n = ∑ i = 1 n X i ∼ N ( n E ( X i ) , n Var ( X i ) ) S_n = \sum_{i=1}^{n} X_i \sim N\left(nE(X_i), n\text{Var}(X_i)\right) Sn=i=1∑nXi∼N(nE(Xi),nVar(Xi))
-
在这里, n = 50 n = 50 n=50:
-
S 50 ∼ N ( 50 ⋅ 5 , 50 ⋅ 25 3 ) = N ( 250 , 1250 3 ) S_{50} \sim N\left(50 \cdot 5, 50 \cdot \frac{25}{3}\right) = N\left(250, \frac{1250}{3}\right) S50∼N(50⋅5,50⋅325)=N(250,31250)
-
标准化:
我们需要计算 P ( S 50 > 300 ) P\left(S_{50} > 300\right) P(S50>300)。首先,将 S 50 S_{50} S50 标准化:
Z = S 50 − 250 1250 3 Z = \frac{S_{50} - 250}{\sqrt{\frac{1250}{3}}} Z=31250S50−250
计算具体值:
P ( S 50 > 300 ) = P ( S 50 − 250 1250 3 > 300 − 250 1250 3 ) P\left(S_{50} > 300\right) = P\left(\frac{S_{50} - 250}{\sqrt{\frac{1250}{3}}} > \frac{300 - 250}{\sqrt{\frac{1250}{3}}}\right) P(S50>300)=P 31250S50−250>31250300−250 = P ( Z > 50 1250 3 ) = P\left(Z > \frac{50}{\sqrt{\frac{1250}{3}}}\right) =P Z>3125050
计算标准差:
σ = 1250 3 ≈ 20.41 \sigma = \sqrt{\frac{1250}{3}} \approx 20.41 σ=31250≈20.41
因此:
P ( Z > 50 20.41 ) = P ( Z > 2.45 ) P\left(Z > \frac{50}{20.41}\right) = P(Z > 2.45) P(Z>20.4150)=P(Z>2.45) -
查标准正态分布表:
从标准正态分布表中查找 P ( Z > 2.45 ) P(Z > 2.45) P(Z>2.45) 的值:
P ( Z > 2.45 ) ≈ 0.0071 P(Z > 2.45) \approx 0.0071 P(Z>2.45)≈0.0071 -
结论:
因此,使用中心极限定理计算得:
P ( ∑ i = 1 50 X i > 300 ) ≈ 0.0071 P\left(\sum_{i=1}^{50} X_i > 300\right) \approx 0.0071 P(i=1∑50Xi>300)≈0.0071
这个结果表示手机用户几乎同时收到50个WiFi信号的总强度超过300的概率大约为0.71%。
题目:
-
设总体 X X X 的概率密度函数为:
f ( x ) = { 2 e − 2 ( x − θ ) , x > θ 0 , x ≤ θ f(x) = \begin{cases} 2e^{-2(x-\theta)}, & x > \theta \\ 0, & x \leq \theta \end{cases} f(x)={2e−2(x−θ),0,x>θx≤θ
其中 θ \theta θ 为未知参数,设 ( X 1 , X 2 , … , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,…,Xn) 是总体 X X X 的一个样本。试求参数 θ \theta θ 的最大似然估计。 -
设 ( X 1 , X 2 , … , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,…,Xn) 是总体的一个样本, ( x 1 , x 2 , … , x n ) (x_1, x_2, \ldots, x_n) (x1,x2,…,xn) 为一相应的样本值。设 X i ∼ B ( m , p ) X_i \sim B(m, p) Xi∼B(m,p),其中 m m m 已知, 0 < p < 1 0 < p < 1 0<p<1 未知,求 p p p 的最大似然估计值。
涉及知识点:
- 最大似然估计(Maximum Likelihood Estimation, MLE)
- 概率密度函数(Probability Density Function, PDF)
- 伯努利分布(Bernoulli Distribution)
- 二项分布(Binomial Distribution)
- 对数函数(Logarithm Function)
- 参数估计(Parameter Estimation)
题目解答:
为了详细说明如何构建似然函数并求解参数的最大似然估计(MLE),我们可以通过一个具体的例子来演示。假设我们有一个样本来自某个已知概率密度函数(PDF)的分布,例如指数分布。
示例:指数分布的最大似然估计
假设我们有一个样本
X
1
,
X
2
,
…
,
X
n
X_1, X_2, \ldots, X_n
X1,X2,…,Xn 来自于参数
λ
\lambda
λ 的指数分布,其概率密度函数为:
f
(
x
∣
λ
)
=
λ
e
−
λ
x
,
x
≥
0
f(x|\lambda) = \lambda e^{-\lambda x}, \quad x \geq 0
f(x∣λ)=λe−λx,x≥0
我们希望估计参数 λ \lambda λ 的值。以下是详细步骤:
步骤 1:构建似然函数、4、
-
定义样本的联合概率密度函数:
样本是独立同分布的,因此它们的联合概率密度函数是每个样本点概率密度函数的乘积:
L ( λ ) = ∏ i = 1 n f ( X i ∣ λ ) = ∏ i = 1 n λ e − λ X i L(\lambda) = \prod_{i=1}^{n} f(X_i|\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda X_i} L(λ)=i=1∏nf(Xi∣λ)=i=1∏nλe−λXi -
展开联合概率密度函数:
将上式展开:
L ( λ ) = λ n e − λ ∑ i = 1 n X i L(\lambda) = \lambda^n e^{-\lambda \sum_{i=1}^{n} X_i} L(λ)=λne−λ∑i=1nXi
步骤 2:取对数似然函数
为了简化计算,我们取对数似然函数
ℓ
(
λ
)
\ell(\lambda)
ℓ(λ):
ℓ
(
λ
)
=
log
L
(
λ
)
=
log
(
λ
n
e
−
λ
∑
i
=
1
n
X
i
)
\ell(\lambda) = \log L(\lambda) = \log (\lambda^n e^{-\lambda \sum_{i=1}^{n} X_i})
ℓ(λ)=logL(λ)=log(λne−λ∑i=1nXi)
利用对数的性质
log
(
a
b
)
=
log
a
+
log
b
\log(ab) = \log a + \log b
log(ab)=loga+logb 和
log
(
a
b
)
=
b
log
a
\log(a^b) = b \log a
log(ab)=bloga,我们可以得到:
ℓ
(
λ
)
=
n
log
λ
−
λ
∑
i
=
1
n
X
i
\ell(\lambda) = n \log \lambda - \lambda \sum_{i=1}^{n} X_i
ℓ(λ)=nlogλ−λi=1∑nXi
步骤 3:求导数并设为零
对
λ
\lambda
λ 求导数并设其等于零,找到最大似然估计值:
d
ℓ
(
λ
)
d
λ
=
n
λ
−
∑
i
=
1
n
X
i
\frac{d\ell(\lambda)}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} X_i
dλdℓ(λ)=λn−i=1∑nXi
设导数等于零:
n
λ
−
∑
i
=
1
n
X
i
=
0
\frac{n}{\lambda} - \sum_{i=1}^{n} X_i = 0
λn−i=1∑nXi=0
解这个方程:
n
λ
=
∑
i
=
1
n
X
i
\frac{n}{\lambda} = \sum_{i=1}^{n} X_i
λn=i=1∑nXi
λ = n ∑ i = 1 n X i \lambda = \frac{n}{\sum_{i=1}^{n} X_i} λ=∑i=1nXin
所以,参数
λ
\lambda
λ 的最大似然估计值为:
λ
^
=
n
∑
i
=
1
n
X
i
\hat{\lambda} = \frac{n}{\sum_{i=1}^{n} X_i}
λ^=∑i=1nXin
宗杰
通过以上步骤,我们可以看到如何构建似然函数并求解参数的最大似然估计:
- 构建似然函数:根据样本的联合概率密度函数,构建似然函数。
- 取对数似然函数:为了简化计算,对似然函数取对数。
- 求导数并设为零:对对数似然函数求导数,并设导数为零,解出参数的估计值。
这种方法适用于许多不同类型的概率分布,只需要将具体的概率密度函数代入上述步骤即可。
问题 1:
-
定义似然函数(似然函数用于评估参数估计的合理性。它描述了在给定观测数据的情况下,参数取值的可能性大小。通常,我们选择使得似然函数取得最大值的参数作为最优的估计值。):
设样本 ( X 1 , X 2 , … , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,…,Xn) 来自于总体 X X X,其概率密度函数为
(如果某些观测值使得概率密度函数为零,那么这些值对似然函数没有贡献,因为它们会使得似然函数的值变为零,这显然不符合我们要最大化似然函数的目的)
:
f ( x ) = 2 e − 2 ( x − θ ) , x > θ f(x) = 2e^{-2(x-\theta)}, \quad x > \theta f(x)=2e−2(x−θ),x>θ
则似然函数 L ( θ ) L(\theta) L(θ) 为:
L ( θ ) = ∏ i = 1 n f ( X i ) = ∏ i = 1 n 2 e − 2 ( X i − θ ) L(\theta) = \prod_{i=1}^{n} f(X_i) = \prod_{i=1}^{n} 2e^{-2(X_i - \theta)} L(θ)=i=1∏nf(Xi)=i=1∏n2e−2(Xi−θ)
由于 X i X_i Xi 独立同分布,我们有:
L ( θ ) = 2 n e − 2 ∑ i = 1 n ( X i − θ ) L(\theta) = 2^n e^{-2 \sum_{i=1}^{n} (X_i - \theta)} L(θ)=2ne−2∑i=1n(Xi−θ) -
取对数:
为了简化计算,我们取对数似然函数 ℓ ( θ ) \ell(\theta) ℓ(θ):
ℓ ( θ ) = log L ( θ ) = log ( 2 n e − 2 ∑ i = 1 n ( X i − θ ) ) = n log 2 − 2 ∑ i = 1 n ( X i − θ ) \ell(\theta) = \log L(\theta) = \log(2^n e^{-2 \sum_{i=1}^{n} (X_i - \theta)}) = n \log 2 - 2 \sum_{i=1}^{n} (X_i - \theta) ℓ(θ)=logL(θ)=log(2ne−2∑i=1n(Xi−θ))=nlog2−2i=1∑n(Xi−θ)= n log 2 − 2 ∑ i = 1 n X i + 2 n θ = n \log 2 - 2 \sum_{i=1}^{n} X_i + 2n\theta =nlog2−2i=1∑nXi+2nθ
-
求导数:
对 θ \theta θ 求导数并设其等于零,得到最大似然估计:
∂ ℓ ( θ ) ∂ θ = 2 n = 0 \frac{\partial \ell(\theta)}{\partial \theta} = 2n = 0 ∂θ∂ℓ(θ)=2n=0
这在这里直接设零没有实际意义,但我们可以考虑当 θ \theta θ 增大时,对应 ∑ i = 1 n ( X i − θ ) \sum_{i=1}^{n} (X_i - \theta) ∑i=1n(Xi−θ) 减少。 -
确定估计值:
为使似然函数达到最大, θ \theta θ 必须使所有 X i X_i Xi 的概率密度为零以外的值,即 θ \theta θ 必须小于或等于所有样本值。最合适的值即为样本中的最小值:
θ ^ = min ( X 1 , X 2 , … , X n ) \hat{\theta} = \min(X_1, X_2, \ldots, X_n) θ^=min(X1,X2,…,Xn)
由于 ∂ ℓ ( θ ) ∂ θ = 2 n > 0 \frac{\partial \ell(\theta)}{\partial \theta} = 2n > 0 ∂θ∂ℓ(θ)=2n>0,对数似然函数 ℓ ( θ ) \ell(\theta) ℓ(θ) 随 θ \theta θ 增加而增加。
最大似然估计的约束条件 尽管对数似然函数随着 θ \theta θ 增大而增加,但我们必须考虑到定义及其限制条件。对于每个观测值 X i X_i Xi,必须满足 X i > θ X_i > \theta Xi>θ。换句话说, θ \theta θ 必须小于所有观测值中的最小值。
为什么选择样本的最小值 为了最大化对数似然函数,同时确保所有观测值 X i X_i Xi 满足 X i > θ X_i > \theta Xi>θ,我们需要选择 θ \theta θ 尽可能大,但又不能超过最小的观测值。如果 θ \theta θ 超过了任何一个观测值,那么对于该观测值 X i X_i Xi,概率密度 f ( X i ∣ θ ) f(X_i|\theta) f(Xi∣θ) 将为零,使得整个似然函数为零。 因此, θ \theta θ 的最大值(使对数似然函数最大化)是所有观测值中的最小值:
二项分布的笔记和公式
1. 二项分布的定义
二项分布是指在 n n n 次独立试验中,每次试验只有两个可能的结果:成功(记为 1 1 1)或失败(记为 0 0 0),成功的概率为 p p p,失败的概率为 1 − p 1 - p 1−p。随机变量 X X X 表示成功的次数,则 X X X 服从参数为 n n n 和 p p p 的二项分布,记作 X ∼ Bin ( n , p ) X \sim \text{Bin}(n, p) X∼Bin(n,p)。
2. 概率质量函数(PMF)
二项分布的概率质量函数(PMF)为(注意前面这个竖着的是组合数):
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
…
,
n
P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n
P(X=k)=(kn)pk(1−p)n−k,k=0,1,2,…,n
其中
(
n
k
)
\binom{n}{k}
(kn) 表示二项系数,计算方式为:
b
i
n
o
m
n
k
=
n
!
k
!
(
n
−
k
)
!
binom{n}{k} = \frac{n!}{k!(n-k)!}
binomnk=k!(n−k)!n!
3. 累积分布函数(CDF)
二项分布的累积分布函数(CDF)为:
F ( x ) = P ( X ≤ x ) = ∑ k = 0 ⌊ x ⌋ ( n k ) p k ( 1 − p ) n − k F(x) = P(X \leq x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1-p)^{n-k} F(x)=P(X≤x)=∑k=0⌊x⌋(kn)pk(1−p)n−k
4. 期望值和方差
二项分布的期望值和方差分别为:
E
(
X
)
=
n
p
E(X) = np
E(X)=np
Var ( X ) = n p ( 1 − p ) \text{Var}(X) = np(1-p) Var(X)=np(1−p)
问题 2:
-
定义似然函数:
设样本 ( X 1 , X 2 , … , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,…,Xn) 来自于总体 X X X,其中 X i ∼ B ( m , p ) X_i \sim B(m, p) Xi∼B(m,p),即 X i X_i Xi 服从参数为 m m m 和 p p p 的二项分布。则似然函数 L ( p ) L(p) L(p) 为:
L ( p ) = ∏ i = 1 n ( m X i ) p X i ( 1 − p ) m − X i L(p) = \prod_{i=1}^{n} \binom{m}{X_i} p^{X_i} (1 - p)^{m - X_i} L(p)=i=1∏n(Xim)pXi(1−p)m−Xi
由于 ( m X i ) \binom{m}{X_i} (Xim) 是常数,我们可以忽略它,仅关注 p p p 和 ( 1 − p ) (1 - p) (1−p) 部分:
L ( p ) ∝ ∏ i = 1 n p X i ( 1 − p ) m − X i L(p) \propto \prod_{i=1}^{n} p^{X_i} (1 - p)^{m - X_i} L(p)∝i=1∏npXi(1−p)m−Xi -
取对数:
为了简化计算,我们取对数似然函数 ℓ ( p ) \ell(p) ℓ(p):
ℓ ( p ) = log L ( p ) = ∑ i = 1 n [ X i log p + ( m − X i ) log ( 1 − p ) ] \ell(p) = \log L(p) = \sum_{i=1}^{n} \left[ X_i \log p + (m - X_i) \log(1 - p) \right] ℓ(p)=logL(p)=i=1∑n[Xilogp+(m−Xi)log(1−p)]= ( ∑ i = 1 n X i ) log p + ( n m − ∑ i = 1 n X i ) log ( 1 − p ) = \left( \sum_{i=1}^{n} X_i \right) \log p + \left( nm - \sum_{i=1}^{n} X_i \right) \log(1 - p) =(i=1∑nXi)logp+(nm−i=1∑nXi)log(1−p)
-
求导数:
对 p p p 求导数并设其等于零,得到最大似然估计:
∂ ℓ ( p ) ∂ p = ∑ i = 1 n X i p − n m − ∑ i = 1 n X i 1 − p = 0 \frac{\partial \ell(p)}{\partial p} = \frac{\sum_{i=1}^{n} X_i}{p} - \frac{nm - \sum_{i=1}^{n} X_i}{1 - p} = 0 ∂p∂ℓ(p)=p∑i=1nXi−1−pnm−∑i=1nXi=0
令 S = ∑ i = 1 n X i S = \sum_{i=1}^{n} X_i S=∑i=1nXi,则上式化简
S p − n m − S 1 − p = 0 \frac{S}{p} - \frac{nm - S}{1 - p} = 0 pS−1−pnm−S=0
解这个方程,得到:
S
(
1
−
p
)
=
(
n
m
−
S
)
p
S(1 - p) = (nm - S)p
S(1−p)=(nm−S)p
S − S p = n m p − S p S - Sp = nmp - Sp S−Sp=nmp−Sp
S = n m p S = nmp S=nmp
p = S n m p = \frac{S}{nm} p=nmS
因此,
p
p
p 的最大似然估计值为:
p
^
=
∑
i
=
1
n
X
i
n
m
\hat{p} = \frac{\sum_{i=1}^{n} X_i}{nm}
p^=nm∑i=1nXi
总结
通过上述步骤,我们得到了两个问题的最大似然估计值:
-
对于具有概率密度函数 f ( x ) = 2 e − 2 ( x − θ ) , x > θ f(x) = 2e^{-2(x-\theta)}, x > \theta f(x)=2e−2(x−θ),x>θ 的随机变量 X X X,其参数 θ \theta θ 的最大似然估计值为样本中的最小值,即 θ ^ = min ( X 1 , X 2 , … , X n ) \hat{\theta} = \min(X_1, X_2, \ldots, X_n) θ^=min(X1,X2,…,Xn)。
-
对于服从二项分布 X i ∼ B ( m , p ) X_i \sim B(m, p) Xi∼B(m,p) 的随机变量 X X X,其参数 p p p 的最大似然估计值为:
p ^ = ∑ i = 1 n X i n m \hat{p} = \frac{\sum_{i=1}^{n} X_i}{nm} p^=nm∑i=1nXi
题目:
设总体 X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ), ( X 1 , X 2 , X 3 , … , X n ) (X_1, X_2, X_3, \ldots, X_n) (X1,X2,X3,…,Xn)是来自 X X X的一个样本, X ˉ \bar{X} Xˉ和 S 2 S^2 S2分别是样本均值和样本方差。
- 试求 ( X 1 , X 2 , X 3 , … , X n ) (X_1, X_2, X_3, \ldots, X_n) (X1,X2,X3,…,Xn)的联合概率分布;
- 试计算 E ( X ˉ ) E(\bar{X}) E(Xˉ), D ( X ˉ ) D(\bar{X}) D(Xˉ), E ( S 2 ) E(S^2) E(S2)。
涉及知识点:
- 泊松分布
- 样本均值和样本方差
- 联合概率分布
- 数学期望和方差
题目解答:
1. ( X 1 , X 2 , X 3 , … , X n ) (X_1, X_2, X_3, \ldots, X_n) (X1,X2,X3,…,Xn)的联合概率分布:
泊松分布
P
(
λ
)
P(\lambda)
P(λ)的概率质量函数(PMF)为:
P
(
X
=
k
)
=
λ
k
e
−
λ
k
!
(
k
=
0
,
1
,
2
,
…
)
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} \quad (k = 0, 1, 2, \ldots)
P(X=k)=k!λke−λ(k=0,1,2,…)
由于样本
(
X
1
,
X
2
,
X
3
,
…
,
X
n
)
(X_1, X_2, X_3, \ldots, X_n)
(X1,X2,X3,…,Xn)是独立同分布的泊松分布随机变量,其联合概率分布为:
P
(
X
1
=
k
1
,
X
2
=
k
2
,
…
,
X
n
=
k
n
)
=
P
(
X
1
=
k
1
)
⋅
P
(
X
2
=
k
2
)
⋅
…
⋅
P
(
X
n
=
k
n
)
P(X_1 = k_1, X_2 = k_2, \ldots, X_n = k_n) = P(X_1 = k_1) \cdot P(X_2 = k_2) \cdot \ldots \cdot P(X_n = k_n)
P(X1=k1,X2=k2,…,Xn=kn)=P(X1=k1)⋅P(X2=k2)⋅…⋅P(Xn=kn)
= ( λ k 1 e − λ k 1 ! ) ( λ k 2 e − λ k 2 ! ) … ( λ k n e − λ k n ! ) = \left( \frac{\lambda^{k_1} e^{-\lambda}}{k_1!} \right) \left( \frac{\lambda^{k_2} e^{-\lambda}}{k_2!} \right) \ldots \left( \frac{\lambda^{k_n} e^{-\lambda}}{k_n!} \right) =(k1!λk1e−λ)(k2!λk2e−λ)…(kn!λkne−λ)
= λ k 1 + k 2 + … + k n e − n λ k 1 ! k 2 ! … k n ! = \frac{\lambda^{k_1+k_2+\ldots+k_n} e^{-n\lambda}}{k_1! k_2! \ldots k_n!} =k1!k2!…kn!λk1+k2+…+kne−nλ
2. 计算 E ( X ˉ ) E(\bar{X}) E(Xˉ), D ( X ˉ ) D(\bar{X}) D(Xˉ), E ( S 2 ) E(S^2) E(S2):
样本均值 X ˉ \bar{X} Xˉ:
X ˉ = X 1 + X 2 + … + X n n \bar{X} = \frac{X_1 + X_2 + \ldots + X_n}{n} Xˉ=nX1+X2+…+Xn
- 期望
E
(
X
ˉ
)
E(\bar{X})
E(Xˉ):
由于 X i ∼ P ( λ ) X_i \sim P(\lambda) Xi∼P(λ),有 E ( X i ) = λ E(X_i) = \lambda E(Xi)=λ,所以:
E ( X ˉ ) = E ( X 1 + X 2 + … + X n n ) = E ( X 1 ) + E ( X 2 ) + … + E ( X n ) n = n λ n = λ E(\bar{X}) = E\left( \frac{X_1 + X_2 + \ldots + X_n}{n} \right) = \frac{E(X_1) + E(X_2) + \ldots + E(X_n)}{n} = \frac{n\lambda}{n} = \lambda E(Xˉ)=E(nX1+X2+…+Xn)=nE(X1)+E(X2)+…+E(Xn)=nnλ=λ
- 方差
D
(
X
ˉ
)
D(\bar{X})
D(Xˉ):
由于 X i ∼ P ( λ ) X_i \sim P(\lambda) Xi∼P(λ),有 D ( X i ) = λ D(X_i) = \lambda D(Xi)=λ,且 X i X_i Xi独立同分布,所以:
D ( X ˉ ) = D ( X 1 + X 2 + … + X n n ) = 1 n 2 ( D ( X 1 ) + D ( X 2 ) + … + D ( X n ) ) = 1 n 2 ( n λ ) = λ n D(\bar{X}) = D\left( \frac{X_1 + X_2 + \ldots + X_n}{n} \right) = \frac{1}{n^2} \left( D(X_1) + D(X_2) + \ldots + D(X_n) \right) = \frac{1}{n^2} (n\lambda) = \frac{\lambda}{n} D(Xˉ)=D(nX1+X2+…+Xn)=n21(D(X1)+D(X2)+…+D(Xn))=n21(nλ)=nλ
样本方差 S 2 S^2 S2:
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2
1. 样本方差 S 2 S^2 S2的定义
样本方差
S
2
S^2
S2的定义如下:
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2
S2=n−11i=1∑n(Xi−Xˉ)2
其中
X
ˉ
\bar{X}
Xˉ是样本均值:
X
ˉ
=
1
n
∑
i
=
1
n
X
i
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
Xˉ=n1i=1∑nXi
2. 泊松分布的性质
对于来自泊松分布 P ( λ ) P(\lambda) P(λ)的随机变量 X i X_i Xi,我们有:
- 期望 E ( X i ) = λ E(X_i) = \lambda E(Xi)=λ
- 方差 V a r ( X i ) = λ Var(X_i) = \lambda Var(Xi)=λ
3. 样本均值 X ˉ \bar{X} Xˉ的性质
样本均值 X ˉ \bar{X} Xˉ是 n n n个独立同分布的泊松随机变量 X i X_i Xi的均值,因此 X ˉ \bar{X} Xˉ也是随机变量,且有以下性质:
- 期望 E ( X ˉ ) = λ E(\bar{X}) = \lambda E(Xˉ)=λ
- 方差 V a r ( X ˉ ) = λ n Var(\bar{X}) = \frac{\lambda}{n} Var(Xˉ)=nλ
4. 使用样本方差的性质
为了计算样本方差
S
2
S^2
S2的期望
E
(
S
2
)
E(S^2)
E(S2),我们可以利用一个重要的统计性质:
E
(
S
2
)
=
1
n
−
1
E
[
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
E(S^2) = \frac{1}{n-1} E\left[ \sum_{i=1}^{n} (X_i - \bar{X})^2 \right]
E(S2)=n−11E[i=1∑n(Xi−Xˉ)2]
根据统计学的结果,对于来自总体的样本:
E
[
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
=
(
n
−
1
)
σ
2
E\left[ \sum_{i=1}^{n} (X_i - \bar{X})^2 \right] = (n-1) \sigma^2
E[i=1∑n(Xi−Xˉ)2]=(n−1)σ2
对于泊松分布,总体方差
σ
2
\sigma^2
σ2等于
λ
\lambda
λ,因此:
E
[
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
=
(
n
−
1
)
λ
E\left[ \sum_{i=1}^{n} (X_i - \bar{X})^2 \right] = (n-1) \lambda
E[i=1∑n(Xi−Xˉ)2]=(n−1)λ
将其代入样本方差的期望公式中:
E
(
S
2
)
=
1
n
−
1
(
n
−
1
)
λ
=
λ
E(S^2) = \frac{1}{n-1} (n-1) \lambda = \lambda
E(S2)=n−11(n−1)λ=λ
zheli1
首先,回顾一下样本方差
S
2
S^2
S2的定义:
S
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2
S2=n−11i=1∑n(Xi−Xˉ)2
为了求 E ( S 2 ) E(S^2) E(S2),我们需要找到 E ( ∑ i = 1 n ( X i − X ˉ ) 2 ) E\left(\sum_{i=1}^{n} (X_i - \bar{X})^2\right) E(∑i=1n(Xi−Xˉ)2)。
步骤1:分解平方和
利用分解平方和的技巧,将
(
X
i
−
X
ˉ
)
2
(X_i - \bar{X})^2
(Xi−Xˉ)2展开:
(
X
i
−
X
ˉ
)
2
=
X
i
2
−
2
X
i
X
ˉ
+
X
ˉ
2
(X_i - \bar{X})^2 = X_i^2 - 2X_i\bar{X} + \bar{X}^2
(Xi−Xˉ)2=Xi2−2XiXˉ+Xˉ2
步骤2:求和
求
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
\sum_{i=1}^{n} (X_i - \bar{X})^2
∑i=1n(Xi−Xˉ)2:
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
∑
i
=
1
n
X
i
2
−
2
∑
i
=
1
n
X
i
X
ˉ
+
∑
i
=
1
n
X
ˉ
2
\sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} X_i^2 - 2\sum_{i=1}^{n} X_i \bar{X} + \sum_{i=1}^{n} \bar{X}^2
i=1∑n(Xi−Xˉ)2=i=1∑nXi2−2i=1∑nXiXˉ+i=1∑nXˉ2
由于
X
ˉ
\bar{X}
Xˉ是常数,可以提出来:
=
∑
i
=
1
n
X
i
2
−
2
X
ˉ
∑
i
=
1
n
X
i
+
n
X
ˉ
2
= \sum_{i=1}^{n} X_i^2 - 2\bar{X}\sum_{i=1}^{n} X_i + n\bar{X}^2
=i=1∑nXi2−2Xˉi=1∑nXi+nXˉ2
步骤3:替换样本均值
样本均值
X
ˉ
\bar{X}
Xˉ的定义为:
X
ˉ
=
1
n
∑
i
=
1
n
X
i
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
Xˉ=n1i=1∑nXi
替换回去:
=
∑
i
=
1
n
X
i
2
−
2
X
ˉ
⋅
n
X
ˉ
+
n
X
ˉ
2
= \sum_{i=1}^{n} X_i^2 - 2\bar{X} \cdot n \bar{X} + n \bar{X}^2
=i=1∑nXi2−2Xˉ⋅nXˉ+nXˉ2
简化:
=
∑
i
=
1
n
X
i
2
−
2
n
X
ˉ
2
+
n
X
ˉ
2
= \sum_{i=1}^{n} X_i^2 - 2n \bar{X}^2 + n \bar{X}^2
=i=1∑nXi2−2nXˉ2+nXˉ2
= ∑ i = 1 n X i 2 − n X ˉ 2 = \sum_{i=1}^{n} X_i^2 - n \bar{X}^2 =i=1∑nXi2−nXˉ2
步骤4:期望
计算 E ( ∑ i = 1 n X i 2 − n X ˉ 2 ) E\left(\sum_{i=1}^{n} X_i^2 - n \bar{X}^2\right) E(∑i=1nXi2−nXˉ2):
-
对于 ∑ i = 1 n X i 2 \sum_{i=1}^{n} X_i^2 ∑i=1nXi2:
因为 X i ∼ P ( λ ) X_i \sim P(\lambda) Xi∼P(λ),我们有 E ( X i 2 ) = V a r ( X i ) + ( E ( X i ) ) 2 = λ + λ 2 E(X_i^2) = Var(X_i) + (E(X_i))^2 = \lambda + \lambda^2 E(Xi2)=Var(Xi)+(E(Xi))2=λ+λ2,因此:
E ( ∑ i = 1 n X i 2 ) = ∑ i = 1 n E ( X i 2 ) = n ( λ + λ 2 ) E\left(\sum_{i=1}^{n} X_i^2\right) = \sum_{i=1}^{n} E(X_i^2) = n(\lambda + \lambda^2) E(i=1∑nXi2)=i=1∑nE(Xi2)=n(λ+λ2) -
对于 n X ˉ 2 n \bar{X}^2 nXˉ2:
使用 V a r ( X ˉ ) = λ n Var(\bar{X}) = \frac{\lambda}{n} Var(Xˉ)=nλ和 E ( X ˉ ) = λ E(\bar{X}) = \lambda E(Xˉ)=λ,我们知道:
E ( X ˉ 2 ) = V a r ( X ˉ ) + ( E ( X ˉ ) ) 2 = λ n + λ 2 E(\bar{X}^2) = Var(\bar{X}) + (E(\bar{X}))^2 = \frac{\lambda}{n} + \lambda^2 E(Xˉ2)=Var(Xˉ)+(E(Xˉ))2=nλ+λ2
因此:
E ( n X ˉ 2 ) = n ( λ n + λ 2 ) = n ⋅ λ n + n λ 2 = λ + n λ 2 E(n \bar{X}^2) = n \left( \frac{\lambda}{n} + \lambda^2 \right) = n \cdot \frac{\lambda}{n} + n \lambda^2 = \lambda + n \lambda^2 E(nXˉ2)=n(nλ+λ2)=n⋅nλ+nλ2=λ+nλ2
步骤5:合并
将两个期望合并:
E
(
∑
i
=
1
n
X
i
2
−
n
X
ˉ
2
)
=
n
(
λ
+
λ
2
)
−
(
λ
+
n
λ
2
)
=
n
λ
+
n
λ
2
−
λ
−
n
λ
2
=
(
n
−
1
)
λ
E\left(\sum_{i=1}^{n} X_i^2 - n \bar{X}^2\right) = n(\lambda + \lambda^2) - (\lambda + n \lambda^2) = n \lambda + n \lambda^2 - \lambda - n \lambda^2 = (n-1) \lambda
E(i=1∑nXi2−nXˉ2)=n(λ+λ2)−(λ+nλ2)=nλ+nλ2−λ−nλ2=(n−1)λ
步骤6:求 E ( S 2 ) E(S^2) E(S2)
根据样本方差 S 2 S^2 S2的定义:
将我们刚刚得到的结果代入:
E
(
S
2
)
=
1
n
−
1
(
n
−
1
)
λ
=
λ
E(S^2) = \frac{1}{n-1} (n-1) \lambda = \lambda
E(S2)=n−11(n−1)λ=λ
总结
样本方差 S 2 S^2 S2的期望是 λ \lambda λ,也就是泊松分布的参数 λ \lambda λ。详细计算过程如下:
- 定义样本方差 S 2 S^2 S2。
- 使用泊松分布的性质(期望和方差)。
- 利用样本均值的性质。
- 使用样本方差的性质来计算 E ( S 2 ) E(S^2) E(S2)。
因此,对于来自泊松分布
P
(
λ
)
P(\lambda)
P(λ)的样本,样本方差
S
2
S^2
S2的期望为
λ
\lambda
λ:
E
(
S
2
)
=
λ
E(S^2) = \lambda
E(S2)=λ
这个推导过程表明了为什么样本方差的期望是总体方差的无偏估计。
总结
样本方差 S 2 S^2 S2的期望是 λ \lambda λ,也就是泊松分布的参数 λ \lambda λ。详细计算过程如下:
- 定义样本方差 S 2 S^2 S2。
- 使用泊松分布的性质(期望和方差)。
- 利用样本均值的性质。
- 使用样本方差的性质来计算 E ( S 2 ) E(S^2) E(S2)。
因此,对于来自泊松分布
P
(
λ
)
P(\lambda)
P(λ)的样本,样本方差
S
2
S^2
S2的期望为
λ
\lambda
λ:
E
(
S
2
)
=
λ
E(S^2) = \lambda
E(S2)=λ
- 或者直接:期望
E
(
S
2
)
E(S^2)
E(S2):
对于泊松分布,有 E ( S 2 ) = λ E(S^2) = \lambda E(S2)=λ。一般来说,对于 n n n个独立同分布的泊松随机变量的样本方差的期望等于泊松分布的参数 λ \lambda λ。
总结:
- 泊松分布 P ( λ ) P(\lambda) P(λ)的样本 ( X 1 , X 2 , X 3 , … , X n ) (X_1, X_2, X_3, \ldots, X_n) (X1,X2,X3,…,Xn)的联合概率分布为:
P ( X 1 = k 1 , X 2 = k 2 , … , X n = k n ) = λ k 1 + k 2 + … + k n e − n λ k 1 ! k 2 ! … k n ! P(X_1 = k_1, X_2 = k_2, \ldots, X_n = k_n) = \frac{\lambda^{k_1+k_2+\ldots+k_n} e^{-n\lambda}}{k_1! k_2! \ldots k_n!} P(X1=k1,X2=k2,…,Xn=kn)=k1!k2!…kn!λk1+k2+…+kne−nλ
- 样本均值 X ˉ \bar{X} Xˉ的期望和方差为:
E ( X ˉ ) = λ E(\bar{X}) = \lambda E(Xˉ)=λ
D ( X ˉ ) = λ n D(\bar{X}) = \frac{\lambda}{n} D(Xˉ)=nλ
- 样本方差 S 2 S^2 S2的期望为:
E ( S 2 ) = λ E(S^2) = \lambda E(S2)=λ
题目:
设随机变量 ( X , Y ) (X,Y) (X,Y)服从由曲线 y = x 2 y=x^2 y=x2, y = x y=\sqrt{x} y=x所围成的区域 G G G上的均匀分布。
- 写出 ( X , Y ) (X,Y) (X,Y)的联合概率密度函数。
- 求边缘密度函数 f X ( x ) f_X(x) fX(x)和 f Y ( y ) f_Y(y) fY(y)。
- 求条件密度 f Y ∣ X ( y ∣ x ) f_{Y|X}(y|x) fY∣X(y∣x),并写出当 x = 0.5 x=0.5 x=0.5时的条件密度。
涉及知识点:
- 随机变量的联合概率密度函数
- 边缘密度函数的求解
- 条件密度函数的求解
- 二重积分
题目解答:
- 联合概率密度函数
由于 ( X , Y ) (X,Y) (X,Y)在区域 G G G上均匀分布,我们需要首先确定区域 G G G的面积。区域 G G G由曲线 y = x 2 y=x^2 y=x2, y = x y=\sqrt{x} y=x所围成。求区域 G G G的面积:
A = ∫ 0 1 ( x − x 2 ) d x A = \int_{0}^{1} (\sqrt{x} - x^2) \, dx A=∫01(x−x2)dx
计算这个积分:
A = ∫ 0 1 x d x − ∫ 0 1 x 2 d x A = \int_{0}^{1} \sqrt{x} \, dx - \int_{0}^{1} x^2 \, dx A=∫01xdx−∫01x2dx
∫ 0 1 x d x = ∫ 0 1 x 1 / 2 d x = [ 2 3 x 3 / 2 ] 0 1 = 2 3 \int_{0}^{1} \sqrt{x} \, dx = \int_{0}^{1} x^{1/2} \, dx = \left[ \frac{2}{3} x^{3/2} \right]_{0}^{1} = \frac{2}{3} ∫01xdx=∫01x1/2dx=[32x3/2]01=32
∫ 0 1 x 2 d x = [ x 3 3 ] 0 1 = 1 3 \int_{0}^{1} x^2 \, dx = \left[ \frac{x^3}{3} \right]_{0}^{1} = \frac{1}{3} ∫01x2dx=[3x3]01=31
因此,区域 G G G的面积为(对的话可以这样理解,就是总的,因为是均匀分布吗。它的在这块区域,它的总的概率是一,然后你除以它的面积啊1除以1/3就是每一块儿它的具体的概率密度):
A = 2 3 − 1 3 = 1 3 A = \frac{2}{3} - \frac{1}{3} = \frac{1}{3} A=32−31=31
因为 ( X , Y ) (X,Y) (X,Y)在区域 G G G上均匀分布,所以联合概率密度函数为:
f X , Y ( x , y ) = { 3 , if 0 ≤ x ≤ 1 and x 2 ≤ y ≤ x 0 , otherwise f_{X,Y}(x,y) = \begin{cases} 3, & \text{if } 0 \leq x \leq 1 \text{ and } x^2 \leq y \leq \sqrt{x} \\ 0, & \text{otherwise} \end{cases} fX,Y(x,y)={3,0,if 0≤x≤1 and x2≤y≤xotherwise
- 边缘密度函数
边缘密度函数 f X ( x ) f_X(x) fX(x)通过对 y y y的积分得到:
f X ( x ) = ∫ x 2 x f X , Y ( x , y ) d y = ∫ x 2 x 3 d y = 3 ( x − x 2 ) , 0 ≤ x ≤ 1 f_X(x) = \int_{x^2}^{\sqrt{x}} f_{X,Y}(x,y) \, dy = \int_{x^2}^{\sqrt{x}} 3 \, dy = 3(\sqrt{x} - x^2), \quad 0 \leq x \leq 1 fX(x)=∫x2xfX,Y(x,y)dy=∫x2x3dy=3(x−x2),0≤x≤1
另一个同理
- 条件密度函数
条件密度函数 f Y ∣ X ( y ∣ x ) f_{Y|X}(y|x) fY∣X(y∣x)定义为:
f Y ∣ X ( y ∣ x ) = f X , Y ( x , y ) f X ( x ) f_{Y|X}(y|x) = \frac{f_{X,Y}(x,y)}{f_X(x)} fY∣X(y∣x)=fX(x)fX,Y(x,y)
对于 0 ≤ x ≤ 1 0 \leq x \leq 1 0≤x≤1和 x 2 ≤ y ≤ x x^2 \leq y \leq \sqrt{x} x2≤y≤x,我们有:
f Y ∣ X ( y ∣ x ) = 3 3 ( x − x 2 ) = 1 x − x 2 , x 2 ≤ y ≤ x f_{Y|X}(y|x) = \frac{3}{3(\sqrt{x} - x^2)} = \frac{1}{\sqrt{x} - x^2}, \quad x^2 \leq y \leq \sqrt{x} fY∣X(y∣x)=3(x−x2)3=x−x21,x2≤y≤x
当 x = 0.5 x = 0.5 x=0.5时的条件密度为:
f Y ∣ X ( y ∣ 0.5 ) = 1 0.5 − ( 0.5 ) 2 = 1 0.5 − 0.25 = 1 2 2 − 0.25 = 1 2 − 0.5 2 = 2 2 − 0.5 , 0.25 ≤ y ≤ 0.5 f_{Y|X}(y|0.5) = \frac{1}{\sqrt{0.5} - (0.5)^2} = \frac{1}{\sqrt{0.5} - 0.25} = \frac{1}{\frac{\sqrt{2}}{2} - 0.25} = \frac{1}{\frac{\sqrt{2} - 0.5}{2}} = \frac{2}{\sqrt{2} - 0.5}, \quad 0.25 \leq y \leq \sqrt{0.5} fY∣X(y∣0.5)=0.5−(0.5)21=0.5−0.251=22−0.251=22−0.51=2−0.52,0.25≤y≤0.5
注:
当求随机变量 X X X的边缘密度函数 f X ( x ) f_X(x) fX(x)时,我们需要对联合概率密度函数 f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y)在 y y y的范围上进行积分,从而得到 X X X的分布。
在这个具体的问题中, X X X和 Y Y Y的联合概率密度函数是在区域 G G G上均匀分布的,这个区域是由曲线 y = x 2 y = x^2 y=x2和 y = x y = \sqrt{x} y=x所围成的。我们需要明确这些曲线定义的区域 G G G的边界。
区域 G G G的边界
区域 G G G由以下两个不等式定义:
- 下界: y ≥ x 2 y \geq x^2 y≥x2
- 上界: y ≤ x y \leq \sqrt{x} y≤x
为了确定 X X X的范围,我们需要考虑这些不等式在 y y y轴上的投影。也就是说,找到使得 y = x 2 y = x^2 y=x2和 y = x y = \sqrt{x} y=x交点的 x x x值。
交点分析
找到 y = x 2 y = x^2 y=x2和 y = x y = \sqrt{x} y=x的交点:
x 2 = x x^2 = \sqrt{x} x2=x
解这个方程:
x 4 = x x^4 = x x4=x
x 4 − x = 0 x^4 - x = 0 x4−x=0
x ( x 3 − 1 ) = 0 x(x^3 - 1) = 0 x(x3−1)=0
x ( x − 1 ) ( x 2 + x + 1 ) = 0 x(x - 1)(x^2 + x + 1) = 0 x(x−1)(x2+x+1)=0
我们得到两个实数解:
x = 0 和 x = 1 x = 0 \quad \text{和} \quad x = 1 x=0和x=1
因此, X X X的范围是 0 ≤ x ≤ 1 0 \leq x \leq 1 0≤x≤1。
求边缘密度函数 f X ( x ) f_X(x) fX(x)
为了求出 X X X的边缘密度函数 f X ( x ) f_X(x) fX(x),我们对 y y y在 x 2 x^2 x2到 x \sqrt{x} x之间的积分:
f X ( x ) = ∫ x 2 x f X , Y ( x , y ) d y f_X(x) = \int_{x^2}^{\sqrt{x}} f_{X,Y}(x,y) \, dy fX(x)=∫x2xfX,Y(x,y)dy
在均匀分布的情况下,联合概率密度函数 f X , Y ( x , y ) = 3 f_{X,Y}(x,y) = 3 fX,Y(x,y)=3,因为区域的面积是 1 3 \frac{1}{3} 31。
因此:
f X ( x ) = ∫ x 2 x 3 d y = 3 ( x − x 2 ) , 0 ≤ x ≤ 1 f_X(x) = \int_{x^2}^{\sqrt{x}} 3 \, dy = 3 \left( \sqrt{x} - x^2 \right), \quad 0 \leq x \leq 1 fX(x)=∫x2x3dy=3(x−x2),0≤x≤1
直观理解
我们在积分时对 y y y的范围 x 2 x^2 x2到 x \sqrt{x} x积分,这是因为在 x x x固定的情况下, y y y的可能值范围是从 x 2 x^2 x2到 x \sqrt{x} x。
总结
X X X的范围 0 ≤ x ≤ 1 0 \leq x \leq 1 0≤x≤1是因为在区域 G G G内, X X X的取值在 [ 0 , 1 ] [0, 1] [0,1]之间。当求边缘密度函数 f X ( x ) f_X(x) fX(x)时,我们对 y y y在每个固定 x x x值的范围(从 x 2 x^2 x2到 x \sqrt{x} x)内积分。这确保了我们在计算 X X X的边缘密度时包含了所有可能的 y y y值。