模式识别学习笔记-lecture2-统计判别2

正态分布模式的贝叶斯分类器

当已知或有理由设想类概率密度函数 P ( x ∣ ω i ) P(x|\omega_i) P(xωi)是多变量的正态分布时,贝叶斯分类器可以导出一些简单的判别函数

M M M种模式类别的多变量正态类密度函数

具有 M M M种模式类别的多变量正态类密度函数为:
P ( x ∣ ω i ) = 1 ( 2 π ) n 2 ∣ C i ∣ 1 2 e x p { − 1 2 ( x − m i ) T C i − 1 ( x − m i ) }   i = 1 , 2 , ⋯   , M P(x|\omega_i)=\frac{1}{(2\pi)^{\frac{n}{2}}|C_i|^{\frac{1}{2}}}exp \left\{ -\frac{1}{2}(x - m_i)^TC_i^{-1}(x - m_i) \right\}\ i = 1,2,\cdots,M P(xωi)=(2π)2nCi211exp{21(xmi)TCi1(xmi)} i=1,2,,M
其中每一类模式的分布密度都完全被其均值向量m_i和协方差矩阵 C i C_i Ci所规定,其定义为:
m i = E i { x } C i = E i { ( x − m i ) ( x − m i ) T } \begin{aligned} m_i &= E_i\{x\} \\ C_i &= E_i\{(x - m_i)(x - m_i)^T\} \end{aligned} miCi=Ei{x}=Ei{(xmi)(xmi)T}
E i { x } E_i\{x\} Ei{x}表示对类别属于 ω i \omega_i ωi的模型的数学期望。
在上述公式中, n n n为模式向量的维数, ∣ C i ∣ |C_i| Ci为矩阵 C i C_i Ci的行列式,协方差矩阵 C i C_i Ci是对称的正定矩阵,其对角线上的元素 C k k C_{kk} Ckk是模式向量第 k k k个元素的方差,非对角线上的元素 C j k C_{jk} Cjk x x x的第 j j j个分量 x j x_j xj和第 k k k个分量 x k x_k xk的协方差。当 x j x_j xj x k x_k xk统计独立时, C j k = 0 C_{jk}=0 Cjk=0。当协方差矩阵的全部非对角线上的元素都为0时,多变量正态类密度函数可简化为 n n n个单变量正态类密度函数的乘积。
已知类别 ω i \omega_i ωi的判别函数可写成如下形式:
d i ( x ) = P ( x ∣ ω i ) P ( ω i ) ,   i = 1 , 2 , ⋯   , M d_i(x)=P(x|\omega_i)P(\omega_i), \ i=1,2,\cdots,M di(x)=P(xωi)P(ωi), i=1,2,,M
对于正态密度函数,可取自然对数的形式以方便计算(因为自然对数是单调递增的,取对数后不影响相应的分类性能),则有:
d i ( x ) = l n [ P ( x ∣ ω i ) ] + l n P ( ω i ) ,   i = 1 , 2 , ⋯   , M d_i(x)=ln[P(x|\omega_i)] + lnP(\omega_i), \ i=1,2,\cdots,M di(x)=ln[P(xωi)]+lnP(ωi), i=1,2,,M
代入正态类密度函数,有:
d i ( x ) = l n P ( ω i ) − n 2 l n ( 2 π ) − 1 2 l n ∣ C i ∣ − 1 2 ( x − m i ) T C i − 1 ( x − m i ) ,   i = 1 , 2 , ⋯   , M d_i(x) = lnP(\omega_i)-\frac{n}{2}ln(2\pi)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x - m_i)^TC_i^{-1}(x - m_i),\ i=1,2,\cdots,M di(x)=lnP(ωi)2nln(2π)21lnCi21(xmi)TCi1(xmi), i=1,2,,M
去掉和 i i i无关的项(并不影响分类结果),有:
d i ( x ) = l n P ( ω i ) − 1 2 l n ∣ C i ∣ − 1 2 ( x − m i ) T C i − 1 ( x − m i ) ,   i = 1 , 2 , ⋯   , M d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C_i|-\frac{1}{2}(x - m_i)^TC_i^{-1}(x - m_i),\ i=1,2,\cdots,M di(x)=lnP(ωi)21lnCi21(xmi)TCi1(xmi), i=1,2,,M
即为正态分布模式的贝叶斯判别函数,判别函数是一个超二次曲面

两类问题且其类模式都是正态分布的特殊情况

C 1 ≠ C 2 C_1 \neq C_2 C1=C2时,两类模式的正态分布为: P ( x ∣ ω 1 ) P(x|\omega_1) P(xω1)表示为 N ( m 1 , C 1 ) N(m_1,C_1) N(m1,C1) P ( x ∣ ω 2 ) P(x|\omega_2) P(xω2)表示为 N ( m 2 , C 2 ) N(m_2,C_2) N(m2,C2) ω 1 , ω 2 \omega_1, \omega_2 ω1,ω2两类的判别函数对应为:
d 1 ( x ) = l n P ( ω 1 ) − 1 2 l n ∣ C 1 ∣ − 1 2 ( x − m 1 ) T C 1 − 1 ( x − m 1 ) d 2 ( x ) = l n P ( ω 2 ) − 1 2 l n ∣ C 2 ∣ − 1 2 ( x − m 2 ) T C 2 − 1 ( x − m 2 ) d 1 ( x ) − d 2 ( x ) = { > 0 x ∈ ω 1 < 0 x ∈ ω 1 d_1(x) = lnP(\omega_1)-\frac{1}{2}ln|C_1|-\frac{1}{2}(x - m_1)^TC_1^{-1}(x - m_1) \\ d_2(x) = lnP(\omega_2)-\frac{1}{2}ln|C_2|-\frac{1}{2}(x - m_2)^TC_2^{-1}(x - m_2) \\ d_1(x)-d_2(x)= \begin{cases} \gt 0 & x \in \omega_1 \\ \lt 0 & x \in \omega_1 \end{cases} d1(x)=lnP(ω1)21lnC121(xm1)TC11(xm1)d2(x)=lnP(ω2)21lnC221(xm2)TC21(xm2)d1(x)d2(x)={>0<0xω1xω1
判别界面是 x x x的二次型方程,当 x x x是二维模式时,判别界面为二次曲线,如椭圆、圆、抛物线或双曲线等
C 1 = C 2 = C C_1 = C_2 = C C1=C2=C时,有:
d i ( x ) = l n P ( ω i ) − 1 2 l n ∣ C ∣ − 1 2 x T C − 1 x + 1 2 x T C − 1 m i + 1 2 m i T C − 1 x − 1 2 m i T C − 1 m i ,   i = 1 , 2 d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x+\frac{1}{2}x^TC^{-1}m_i + \frac{1}{2}m_i^TC^{-1}x - \frac{1}{2}m_i^TC^{-1}m_i,\ i = 1,2 di(x)=lnP(ωi)21lnC21xTC1x+21xTC1mi+21miTC1x21miTC1mi, i=1,2
C C C为对称矩阵,上式可简化为:
d i ( x ) = l n P ( ω i ) − 1 2 l n ∣ C ∣ − 1 2 x T C − 1 x + m i T C − 1 x − 1 2 m i T C − 1 m i ,   i = 1 , 2 d_i(x)=lnP(\omega_i)-\frac{1}{2}ln|C|-\frac{1}{2}x^TC^{-1}x + m_i^TC^{-1}x - \frac{1}{2}m_i^TC^{-1}m_i,\ i = 1,2 di(x)=lnP(ωi)21lnC21xTC1x+miTC1x21miTC1mi, i=1,2
由此可导出类别 ω 1 \omega_1 ω1 ω 2 \omega_2 ω2间的判别界面为:
d 1 ( x ) − d 2 ( x ) = l n P ( ω 1 ) − l n P ( ω 2 ) + ( m 1 − m 2 ) T C − 1 x − 1 2 m 1 T C − 1 m 1 + 1 2 m 2 T C − 1 m 2 = 0 d_1(x)-d_2(x) = lnP(\omega_1)-lnP(\omega_2)+(m_1-m_2)^TC^{-1}x- \frac{1}{2}m_1^TC^{-1}m_1 + \frac{1}{2}m_2^TC^{-1}m_2 = 0 d1(x)d2(x)=lnP(ω1)lnP(ω2)+(m1m2)TC1x21m1TC1m1+21m2TC1m2=0
判别界面是 x x x的线性函数,为一超平面,当 x x x是二维时,判别界面为一直线

例题

P ( ω 1 ) = P ( ω 2 ) = 1 2 P(\omega_1) = P(\omega_2) = \frac{1}{2} P(ω1)=P(ω2)=21,求其判别界面
例题图
模式的均值向量 m i m_i mi和协方差矩阵 C i C_i Ci可用下式估计:
m 1 = 1 N i ∑ j = 1 N i x i j   i = 1 , 2 C i = 1 N i ∑ j = 1 N i ( x i j − m i ) ( x i j − m i ) T   i = 1 , 2 \begin{aligned} m_1 &= \frac{1}{N_i}\sum_{j = 1}^{N_i}x_{ij} \ i = 1,2 \\ C_i &= \frac{1}{N_i}\sum_{j = 1}^{N_i}(x_{ij}-m_i)(x_{ij}-m_i)^T \ i = 1,2 \end{aligned} m1Ci=Ni1j=1Nixij i=1,2=Ni1j=1Ni(xijmi)(xijmi)T i=1,2
其中 N i N_i Ni为类别 ω i \omega_i ωi中模式的数目, x i j x_{ij} xij代表在第 i i i个类别中的第 j j j个模式,由上式可求出:
m 1 = 1 4 ( 3   1   1 ) T m 2 = 1 4 ( 1   3   3 ) T C 1 = C 2 = C = 1 16 ( 3 1 1 1 3 − 1 1 − 1 3 ) ,   C − 1 = 4 ( 2 − 1 − 1 − 1 2 1 − 1 1 2 ) m_1 = \frac{1}{4}(3\ 1\ 1)T \\ m_2 = \frac{1}{4}(1\ 3\ 3)^T \\ C_1 = C_2 = C = \frac{1}{16} \left( \begin{matrix} 3 & 1 & 1 \\ 1 & 3 & -1 \\ 1 & -1 & 3 \end{matrix} \right),\ C^{-1} = 4 \left( \begin{matrix} 2 & -1 & -1 \\ -1 & 2 & 1 \\ -1 & 1 & 2 \end{matrix} \right) m1=41(3 1 1)Tm2=41(1 3 3)TC1=C2=C=161 311131113 , C1=4 211121112
P ( ω 1 ) = P ( ω 2 ) = 1 2 P(\omega_1)=P(\omega_2)=\frac{1}{2} P(ω1)=P(ω2)=21,因 C 1 = C 2 C_1=C_2 C1=C2,则判别界面为:
d 1 ( x ) − d 2 ( x ) = ( m 1 − m 2 ) T C − 1 x − 1 2 m 1 T C − 1 m 1 + 1 2 m 2 T C − 1 m 2 = 8 x 1 − 8 x 2 − 8 x 3 + 4 = 0 \begin{aligned} d_1(x)-d_2(x) &=(m_1-m_2)^TC^{-1}x-\frac{1}{2}m_1^TC^{-1}m_1+\frac{1}{2}m_2^TC^{-1}m_2 \\ &= 8x_1-8x_2-8x_3 + 4 = 0 \end{aligned} d1(x)d2(x)=(m1m2)TC1x21m1TC1m1+21m2TC1m2=8x18x28x3+4=0

均值向量和协方差矩阵的参数估计

在贝叶斯分类器中,构造分类器需要知道类概率密度函数 P ( x ∣ ω i ) P(x|\omega_i) P(xωi),如果按照先验知识已经知道其分布,则只需要知道分布的参数即可

将参数作为非随机变量

均值和协方差矩阵的估计量定义
设模式的类概率密度函数为 p ( x ) p(x) p(x),则其均值向量定义为:
m = E ( x ) = ∫ x x P ( x ) d x m = E(x) = \int_xxP(x)dx m=E(x)=xxP(x)dx
其中, x = ( x 1 , x 2 , ⋯   , x n ) T , m = ( m 1 , m 2 , ⋯   , m n ) T x = (x_1,x_2,\cdots,x_n)^T,m = (m_1,m_2,\cdots,m_n)^T x=(x1,x2,,xn)T,m=(m1,m2,,mn)T
若以样本的平均值作为均值向量的近似值,则均值估计量 m ^ \hat{m} m^为:
m ^ = 1 N ∑ j = 1 N x j \hat{m} = \frac{1}{N}\sum_{j=1}^Nx_j m^=N1j=1Nxj
其中 N N N为样本的数目。
协方差矩阵为:
C = ( c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋱ ⋮ c n 1 c n 2 ⋯ c n n ) C = \left( \begin{matrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{matrix} \right) C= c11c21cn1c12c22cn2c1nc2ncnn
其每个元素 c l k c_{lk} clk定义为:
c l k = E { ( x l − m l ) ( x k − m k ) } = ∫ − ∞ ∞ ∫ − ∞ ∞ ( x l − m l ) ( x k − m k ) P ( x l , x k ) d x l d x k \begin{aligned} c_{lk} &= E\{(x_l-m_l)(x_k-m_k)\} \\ &= \int^{\infty}_{-\infty}\int^{\infty}_{-\infty}(x_l-m_l)(x_k-m_k)P(x_l,x_k)dx_ldx_k \end{aligned} clk=E{(xlml)(xkmk)}=(xlml)(xkmk)P(xlxk)dxldxk
其中, x l , x k , m l , m k x_l,x_k,m_l,m_k xl,xk,ml,mk分别是 x , m x,m x,m的第 l , k l,k l,k个分量。
协方差矩阵写成向量形式为:
C = E { ( x − m ) ( x − m ) T } = E { x x T } − m m T C = E\{(x - m)(x - m)^T\} = E\{xx^T\}-mm^T C=E{(xm)(xm)T}=E{xxT}mmT
协方差矩阵的估计量(当 N ≫ 1 N \gg 1 N1为:
C ^ ≈ 1 N ∑ k = 1 N ( x k − m ^ ) ( x k − m ^ ) T \hat{C} \approx \frac{1}{N}\sum^N_{k=1}(x_k-\hat{m})(x_k-\hat{m})^T C^N1k=1N(xkm^)(xkm^)T
这里样本模式总体为 { x 1 , x 2 , ⋯   , x k , ⋯   , x N } \{x_1,x_2,\cdots,x_k,\cdots,x_N\} {x1,x2,,xk,,xN},为因为计算估计量时没有真实的均值向量 m m m可用,只能用均值向量的估计量来代替,会存在偏差。
均值和协方差矩阵估计量的迭代运算形式
假设已经计算了 N N N个样本的均值估计量,若再加上一个样本,其新的估计量 m ^ ( N + 1 ) \hat{m}(N+1) m^(N+1)为:
m ^ ( N + 1 ) = 1 N + 1 ∑ j = 1 N + 1 x j = 1 N + 1 [ ∑ j = 1 N x j + x N + 1 ] = 1 N + 1 [ N m ^ ( N ) + x N + 1 ] \hat{m}(N+1) = \frac{1}{N+1}\sum_{j=1}^{N+1}x_j = \frac{1}{N+1} \left[ \sum_{j=1}^Nx_j+x_{N+1} \right] = \frac{1}{N+1}\left[N\hat{m}(N) + x_{N+1}\right] m^(N+1)=N+11j=1N+1xj=N+11[j=1Nxj+xN+1]=N+11[Nm^(N)+xN+1]
其中 m ^ ( N ) \hat{m}(N) m^(N)为从 N N N个样本计算得到的估计量,迭代的第一步应取 m ^ ( 1 ) = x 1 \hat{m}(1)=x_1 m^(1)=x1
协方差矩阵的估计量的迭代运算与上述相似,取 C ^ ( N ) \hat{C}(N) C^(N)表示 N N N个样本时的估计量为:
C ^ ( N ) = 1 N ∑ j = 1 N x j x j T − m ^ ( N ) m ^ T ( N ) \hat{C}(N) = \frac{1}{N}\sum_{j=1}^Nx_jx_j^T - \hat{m}(N)\hat{m}^T(N) C^(N)=N1j=1NxjxjTm^(N)m^T(N)
加入一个样本,则:
C ^ ( N + 1 ) = 1 N + 1 ∑ j = 1 N + 1 x j x j T − m ^ ( N + 1 ) m ^ T ( N + 1 ) = 1 N + 1 [ ∑ j = 1 N x j x j T + x N + 1 x N + 1 T ] − m ^ ( N + 1 ) m ^ T ( N + 1 ) = 1 N + 1 [ N C ^ ( N ) + N m ^ ( N ) m ^ T ( N ) + x N + 1 x N + 1 T ] − 1 ( N + 1 ) 2 [ N m ^ ( N ) + x N + 1 ] [ N m ^ ( N ) + x N + 1 ] T \begin{aligned} \hat{C}(N+1) &= \frac{1}{N+1}\sum_{j=1}^{N+1}x_jx_j^T - \hat{m}(N+1)\hat{m}^T(N+1) \\ &= \frac{1}{N+1}\left[\sum_{j=1}^{N}x_jx_j^T + x_{N+1}x_{N+1}^T\right] - \hat{m}(N+1)\hat{m}^T(N+1) \\ &= \frac{1}{N+1}\left[N\hat{C}(N)+N\hat{m}(N)\hat{m}^T(N) + x_{N+1}x_{N+1}^T\right] - \frac{1}{(N+1)^2}\left[N\hat{m}(N) + x_{N+1}\right]\left[N\hat{m}(N) + x_{N+1}\right]^T \end{aligned} C^(N+1)=N+11j=1N+1xjxjTm^(N+1)m^T(N+1)=N+11[j=1NxjxjT+xN+1xN+1T]m^(N+1)m^T(N+1)=N+11[NC^(N)+Nm^(N)m^T(N)+xN+1xN+1T](N+1)21[Nm^(N)+xN+1][Nm^(N)+xN+1]T
其中 C ^ ( 1 ) = x 1 x 1 T − m ^ ( 1 ) m ^ T ( 1 ) = 0 \hat{C}(1) = x_1x_1^T - \hat{m}(1)\hat{m}^T(1)=0 C^(1)=x1x1Tm^(1)m^T(1)=0是零矩阵

将参数看做随机变量

{ x 1 , x 2 , ⋯   , x N } \{x_1,x_2,\cdots,x_N\} {x1,x2,,xN} N N N个用于估计一未知参数 θ \theta θ的密度函数的样本, x i x_i xi被一个接一个的逐次给出,于是用贝叶斯定理,可以得到在给定了 x 1 , x 2 , ⋯   , x N x_1,x_2,\cdots,x_N x1,x2,,xN之后, θ \theta θ的后延概率密度的迭代表示式为:
P ( θ ∣ x 1 , ⋯   , x N ) = P ( x N ∣ θ , x 1 , ⋯   , x N − 1 ) P ( θ ∣ x 1 , ⋯   , x N − 1 ) P ( x N ∣ x 1 , ⋯   , x N − 1 ) P(\theta|x_1,\cdots,x_N)=\frac{P(x_N|\theta,x_1,\cdots,x_{N-1})P(\theta|x_1,\cdots,x_{N-1})}{P(x_N|x_1,\cdots,x_{N-1})} P(θx1,,xN)=P(xNx1,,xN1)P(xNθ,x1,,xN1)P(θx1,,xN1)
其中对于 P ( θ ∣ x 1 , ⋯   , x N ) P(\theta|x_1,\cdots,x_N) P(θx1,,xN)而言, P ( θ ∣ x 1 , ⋯   , x N − 1 ) P(\theta|x_1,\cdots,x_{N-1}) P(θx1,,xN1)是它的先验概率,当加入了新的样本 x N x_N xN后,得到修正之后的新的概率密度 P ( θ ∣ x 1 , ⋯   , x N ) P(\theta|x_1,\cdots,x_N) P(θx1,,xN)。如此一步步向前推,则 P ( θ ) P(\theta) P(θ)是最初的先验概率密度,当读入第一个样本 x 1 x_1 x1时,经过贝叶斯定理计算,可得到后验概率密度 P ( θ ∣ x 1 ) P(\theta|x_1) P(θx1)。以此为新的一步,将 P ( θ ∣ x 1 ) P(\theta|x_1) P(θx1)作为第二部计算的先验概率密度,读入样本 x 2 x_2 x2,又得到第二步的后验概率密度 P ( θ ∣ x 1 , x 2 ) P(\theta|x_1,x_2) P(θx1,x2),……,以此可以算出最终的后延概率密度 P ( θ ∣ x 1 , ⋯   , x N ) P(\theta|x_1,\cdots,x_N) P(θx1,,xN),从而得到最终的结果。
这里需要知道最初始的概率密度 P ( θ ) P(\theta) P(θ)和全概率 P ( x N ∣ x 1 , ⋯   , x N − 1 ) P(x_N|x_1,\cdots,x_{N-1}) P(xNx1,,xN1),全概率可以通过下式算出:
P ( x N ∣ x 1 , ⋯   , x N − 1 ) = ∫ x P ( x N ∣ θ , x 1 , ⋯   , x N − 1 ) P ( θ ∣ x 1 , ⋯   , x N − 1 ) d θ P(x_N|x_1,\cdots,x_{N-1}) = \int_xP(x_N|\theta,x_1,\cdots,x_{N-1})P(\theta|x_1,\cdots,x_{N-1})d\theta P(xNx1,,xN1)=xP(xNθ,x1,,xN1)P(θx1,,xN1)dθ
这一个值和未知量 θ \theta θ无关,可以认为是一个定值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值