1、卡方分布的均值和方差
最近在学习信号检测与估计,在求解高斯随机变量平方的期望时,需要用到卡方分布。
-
卡方分布:n个相互独立且服从标准正态分布的随机变量的平方和构成的统计量 χ 2 \chi^2 χ2,服从自由度为n的卡方分布。
-
卡方分布: χ 2 = ∑ i = 0 n X i 2 ; X i ∼ N ( 0 , 1 ) \chi ^2 = \sum_{i=0}^{n}X_i^2;\quad X_i \sim N(0,1) χ2=∑i=0nXi2;Xi∼N(0,1)。
-
卡方分布的均值:n。
- E ( χ 2 ) = E ( ∑ i = 1 n X i 2 ) = ∑ i = 1 n E ( X i 2 ) = ∑ i = 1 n V ( X i ) = n E(\chi ^2) = E(\sum_{i=1}^{n}X_i^2) = \sum_{i=1}^{n}E(X_i^2)=\sum_{i=1}^{n}V(X_i)=n E(χ2)=E(i=1∑nXi2)=i=1∑nE(Xi2)=i=1∑nV(Xi)=n
-
卡方分布的方差:2n。
-
方差的推导涉及到数学运算较为复杂。
-
V ( χ 2 ) = V ( ∑ i = 1 n X i 2 ) = ∑ i = 0 n V ( X i 2 ) = ∑ i = 1 n [ E ( X i 4 ) − E 2 ( X i 2 ) ] = ∑ i = 1 n [ 1 2 π ∫ − ∞ + ∞ x 4 e x p ( − x 2 2 ) d x − 1 ] = ∑ i = 1 n ( 3 − 1 ) = 2 n \begin{aligned} V(\chi ^2) &= V(\sum_{i=1}^{n}X_i^2) =\sum_{i=0}^{n}V(X_i^2)\\ &= \sum_{i=1}^{n}[E(X_i^4)-E^2(X_i^2)]\\ &= \sum_{i=1}^{n}[\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{+\infty}x^4exp(-\frac{x^2}{2})dx -1]\\ &= \sum_{i=1}^{n}(3-1)\\ &=2n \end{aligned} V(χ2)=V(i=1∑nXi2)=i=0∑nV(Xi2)=i=1∑n[E(Xi4)−E2(Xi2)]=i=1∑n[2π1∫−∞+∞x4exp(−2x2)dx−1]=i=1∑n(3−1)=2n
-
-
中心卡方分布: χ 2 = ∑ i = 0 n X i 2 ; X i ∼ N ( 0 , σ 2 ) \chi ^2 = \sum_{i=0}^{n}X_i^2;\quad X_i \sim N(0,\sigma^2) χ2=∑i=0nXi2;Xi∼N(0,σ2)
- 均值:n𝛔2;
- 方差:2n𝛔4。
2、高斯变量的线性运算
- x~N(0,1)
- y = a+bx, y~N(a,b2)
- 相互独立的N个标准高斯变量之和: y = ∑ X i ∼ N ( 0 , N ) y=\sum X_i \sim N(0,N) y=∑Xi∼N(0,N)
- 方差:V(X±Y) = V(X) + V(Y) ± 2COV(X,Y)
3、抽样分布定理
- 从正态总体N(u,𝛔2)中抽取n个样本,样本均值记为m,样本方差记为S2;
- m = 1 n ∑ i = 1 n x i \frac{1}{n}\sum_{i=1}^n x_i n1∑i=1nxi;
- S2 = 1 n − 1 ∑ i = 1 n ( x i − m ) 2 \frac{1}{n-1}\sum_{i=1}^n (x_i-m)^2 n−11∑i=1n(xi−m)2;
- m~N(u,𝛔2/n);
- n − 1 σ 2 S 2 ∼ χ 2 ( n − 1 ) \frac{n-1}{\sigma^2}S^2 \sim \chi ^2(n-1) σ2n−1S2∼χ2(n−1);
- m − μ S / n ∼ t ( n − 1 ) \frac{m-\mu}{S/\sqrt n} \sim t(n-1) S/nm−μ∼t(n−1)
- m和S2相互独立。
以上是总体的均值和方差均未知,使用样本均值和方差来估计总体的均值和方差。
如果均值已知,那么样本方差将服从自由度为n的卡方分布,并且不用使用1/(n-1)来做到无偏,使用1/n即可。
4、估计量的特性
- 无偏性:$E(\hat a)=a $
- 一致性(均方一致性): lim K → ∞ E ( ∣ a ^ − a ∣ 2 ) = 0 \lim_{K\to \infty} E(|\hat a -a|^2)=0 limK→∞E(∣a^−a∣2)=0
- 有效性(优效性): 无偏+CLRB: V ( a ^ ) = − 1 / E ( ∂ 2 p ( x ∣ a ) ∂ a 2 ) V(\hat a) = -1/E(\frac{\partial^2 p(x|a)}{\partial a^2}) V(a^)=−1/E(∂a2∂2p(x∣a))
- 充分性:
5、最大似然估计
- ∂ ∂ α p ( y ⃗ ; α ) = 0 \frac{\partial }{\partial \alpha}p(\vec y;\alpha)=0 ∂α∂p(y;α)=0
- 似然函数的关于某个估计量的导数为0,此时的估计值称为估计量的最大似然估计。
6、MAP估计
- ∂ ∂ α p ( α ; y ⃗ ) = 0 \frac{\partial }{\partial \alpha}p(\alpha;\vec y)=0 ∂α∂p(α;y)=0
- 和ML估计相反,最大似然由于不知道先验概率分布,所以只能从似然函数出发进行估计。
- 利用贝叶斯公式,可推导出ML和MAP估计的关系: p ( α ; y ⃗ ) = p ( y ⃗ ; α ) p ( α ) p ( y ⃗ ) p(\alpha;\vec y)=\frac{p(\vec y;\alpha) p(\alpha)}{p(\vec y)} p(α;y)=p(y)p(y;α)p(α)
利用对数似然函数,写出更加简洁的形式:
∂
∂
α
ln
p
(
α
;
y
⃗
)
=
∂
∂
α
ln
p
(
y
⃗
;
α
)
+
∂
∂
α
ln
p
(
α
)
−
∂
∂
α
ln
p
(
y
⃗
)
=
∂
∂
α
ln
p
(
y
⃗
;
α
)
+
∂
∂
α
ln
p
(
α
)
\begin{aligned} \frac{\partial }{\partial \alpha} \ln p(\alpha;\vec y) &= \frac{\partial }{\partial \alpha}\ln p(\vec y;\alpha) +\frac{\partial }{\partial \alpha}\ln p(\alpha) - \frac{\partial }{\partial \alpha}\ln p(\vec y)\\ &= \frac{\partial }{\partial \alpha}\ln p(\vec y;\alpha) +\frac{\partial }{\partial \alpha}\ln p(\alpha) \end{aligned}
∂α∂lnp(α;y)=∂α∂lnp(y;α)+∂α∂lnp(α)−∂α∂lnp(y)=∂α∂lnp(y;α)+∂α∂lnp(α)
如果先验概率是一个较广的分布,那么MAP和ML估计几乎相同,比如在一个较宽的区间里面的均匀分布。
7、CRLB:克劳美罗下界
-
这是估计量的方差所能达到的最小值,显然这是一个很有用的值。
-
V ( a ^ ) ≥ − 1 E { ∂ 2 ∂ α 2 ln p ( y ⃗ ; α ) } = 1 E { [ ∂ ∂ α ln p ( y ⃗ ; α ) ] 2 } V(\hat a) \ge - \cfrac{1}{E\{ \cfrac{\partial^2 }{\partial \alpha^2}\ln p(\vec y;\alpha) \}} = \cfrac{1}{E\{[ \cfrac{\partial }{\partial \alpha}\ln p(\vec y;\alpha) ]^2 \}} V(a^)≥−E{∂α2∂2lnp(y;α)}1=E{[∂α∂lnp(y;α)]2}1
8、MSE和方差
- MSE:均方误差,mean squre error,是指观测值和真实值之差的平方的均值。
- 方差:方差,variance,是指观测值和均值之差的平方的均值。
- RMSE:根均方误差,均方误差的算术平方根。
9、多维高斯变量的联合概率分布
-
f ( X ) = 1 ( 2 π ) n / 2 d e t C . exp { − 1 2 ( X − μ ) T C − 1 ( X − μ ) } f(X) = \frac{1}{(2\pi)^{n/2}\sqrt{detC}}.\exp\{ -\tfrac{1}{2}(X-\mu)^TC^{-1}(X-\mu) \} f(X)=(2π)n/2detC1.exp{−21(X−μ)TC−1(X−μ)}
-
如果每个维度的高斯分布均值为0,方差为 σ n 2 \sigma_n^2 σn2,并且相互独立,那么C是一个对角阵。
-
f ( X ) = 1 ( 2 π σ n 2 ) n / 2 . exp { − 1 2 σ n 2 ∑ i = 1 n x i 2 } f(X) = \frac{1}{(2\pi\sigma_n^2)^{n/2}}.\exp\{ -\tfrac{1}{2\sigma_n^2}\sum_{i=1}^{n}x_i^2 \} f(X)=(2πσn2)n/21.exp{−2σn21∑i=1nxi2}
-
当离散的观测,变为0到T的连续观测:相当于将0到T的时间区间无限划分,每一个小区间时间为 Δ t \Delta t Δt。
-
维纳辛钦定理:自相关函数和功率谱密度互为傅立叶变换。
-
高斯白噪声的功率谱密度是一个门函数,区间为[-w0,w0],功率谱密度通常为N0/2,这样总能量为N0w0。因此高斯白噪声的自相关函数是一个sinc函数, N 0 2 . s i n ( w 0 t ) π t \tfrac{N_0}{2}.\frac{sin(w_0t)}{\pi t} 2N0.πtsin(w0t)
-
因此要使得采样点之间相互独立, Δ t = π w 0 \Delta t = \frac{\pi}{w_0} Δt=w0π
-
R n ( 0 ) = σ n 2 = 1 2 π ∫ N 0 2 exp [ j w × 0 ] d w = 1 2 π N 0 w 0 = N 0 2 Δ t R_n(0) = \sigma_n^2 = \frac{1}{2\pi}\int \frac{N_0}{2}\exp[jw\times0]dw = \frac{1}{2\pi}N_0w_0 = \frac{N_0}{2\Delta t} Rn(0)=σn2=2π1∫2N0exp[jw×0]dw=2π1N0w0=2ΔtN0
-
f ( x ( t ) ) = 1 ( 2 π N 0 2 Δ t ) n / 2 . exp { − 1 2 N 0 2 Δ t ∑ i = 1 n x i 2 } = K exp { − 1 N 0 ∫ 0 T x 2 ( t ) d t } f(x(t))=\frac{1}{(2\pi\frac{N_0}{2\Delta t})^{n/2}}.\exp\{ -\tfrac{1}{2\frac{N_0}{2\Delta t}}\sum_{i=1}^{n}x_i^2 \} = K\exp\{-\frac{1}{N_0}\int_0^T x^2(t)dt \} f(x(t))=(2π2ΔtN0)n/21.exp{−22ΔtN01∑i=1nxi2}=Kexp{−N01∫0Tx2(t)dt}
10、MAP准则
MAP:Maximum a posteriori ,最大后验概率。
后验概率:所谓先验、后验,是从通信的接收方而言的。接收到信号之前的所有信息,叫先验信息;接收到信号之后的信息,叫后验信息。特别地,称P(y0)是发送y0信号的先验概率,称P(H0|y)是接收到信号y之后判断是H0假设的后验概率。H0是假设发送的是s0。
检测思想:P(H0|y)、P(H1|y)是两个条件概率,哪个条件概率大,就认为哪个假设是正确的。在具体操作中,会根据这两个条件概率推导出一个门限,用接收信号的计算出似然比来和这个门限做比较,从而做出判决。这就是最大后验概率。
现在利用贝叶斯公式将后验概率修改成似然函数。
p
(
H
0
∣
y
)
=
p
(
H
0
,
y
)
p
(
y
)
=
p
(
y
∣
H
0
)
P
(
H
0
)
p
(
y
)
p(H0|y) = \frac{p(H0,y)}{p(y)} = \frac{p(y|H0)P(H0)}{p(y)}
p(H0∣y)=p(y)p(H0,y)=p(y)p(y∣H0)P(H0)
比如P(H0|y)>P(H1|y),就可改写为:
p
(
y
∣
H
0
)
P
(
H
0
)
>
p
(
y
∣
H
1
)
P
(
H
1
)
p(y|H0)P(H0)\gt p(y|H1)P(H1)
p(y∣H0)P(H0)>p(y∣H1)P(H1)
通常将它写成除法的形式:
p
(
y
∣
H
1
)
p
(
y
∣
H
0
)
<
P
(
H
0
)
P
(
H
1
)
\frac{p(y|H1)}{p(y|H0)}<\frac{P(H0)}{P(H1)}
p(y∣H0)p(y∣H1)<P(H1)P(H0)
具体地:可假设信号接收信号为y=s_i+n,i=0,1。即检测在白噪声污染下的信号。
11、ML准则
ML:最大似然准则。在不知道先验概率的情况下,假设先验概率是P(y1)=P(y0)。再代入MAP的公式里面,称这种情况为最大似然。
似然函数:这原本是一个概率论里面的术语,比如L(x1,x2,x3…;a1,a2,a3,…)是在参数a1,a2,a3,…下的关于x1,x2,x3,…的似然函数。其目的是对参数进行估计,选择合适的参数使得似然函数达到最大值。信号检测领域,我们也称p(y|H0)这种条件概率,也称为似然函数。
12、Bayes准则
所谓贝叶斯准则,就是在MAP的基础上,引入了代价函数的概念。认为只有错误判决才应该付出代价,或者说错误判决付出的代价要比正确判决付出的代价少。MAP可看成四种代价全部为1的情况。
13、极大极小化准则
MM准则:极大极小化准则,这是一种十分保守的准则,在不知道先验概率的情况下,求出最大的风险。
怎么求出这个最大风险呢,首先需要考虑我们能决定是什么?代价因子是固定的,似然函数是固定的,门限是贝叶斯门限,只不过先验概率未知,由于先验概率是未知的,那么我们需要找到这个是风险函数最大的先验概率。
其次需要考虑什么样的先验概率使风险函数取得最大值?驻点。
极大极小化方程:
r
0
(
a
)
=
r
1
(
a
)
即
C
00
P
00
+
C
10
P
10
=
C
11
P
11
+
C
01
P
01
r_0(a)=r_1(a)\\ 即C_{00}P_{00}+C_{10}P_{10} = C_{11}P_{11}+C_{01}P_{01}
r0(a)=r1(a)即C00P00+C10P10=C11P11+C01P01
根据极大极小化方程求出似然比门限tau_mm:
τ
m
m
=
a
(
C
10
−
C
00
)
(
1
−
a
)
(
C
01
−
C
11
)
\tau_{mm} = \frac{a(C_{10}-C_{00})}{(1-a)(C_{01}-C_{11})}
τmm=(1−a)(C01−C11)a(C10−C00)
从而反解出a,a即是使得风险函数取得最大值的假设的先验概率
π
0
\pi_0
π0
14、NP准则:
给定虚警概率,求出NP门限,从而计算出检测概率。