贝叶斯概率决策与分类器

基础知识:

条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)
乘法定理: P ( A B ) = P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) P(AB)=P(A|B)P(B)=P(B|A)P(A) P(AB)=P(AB)P(B)=P(BA)P(A)
全概公式: B 1 ∪ B 1 ∪ . . . B n = Ω , 且 B i ∩ B j = 空 集 , 则 P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) B_{1}\cup B_{1}\cup ...B_{n}=\Omega,且B_{i}\cap B_{j}=空集,则P(A)=\sum_{i=1}^{n}P(A|B_{i})P(B_{i}) B1B1...Bn=Ω,BiBj=P(A)=i=1nP(ABi)P(Bi)
贝叶斯公式: P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) P(B_{i}|A)=\frac{P(A|B_{i})P(B_{i})}{\sum_{j=1}^{n}P(A|B_{j})P(B_{j})} P(BiA)=j=1nP(ABj)P(Bj)P(ABi)P(Bi)

贝叶斯决策论

贝叶斯决策论(Bayesian decision theory)是概率框架下进行决策的基本方法。对于分类任务,所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

最大后验概率贝叶斯决策:

基于观察特征,类别的贝叶斯公式:
P ( ω i ∣ x ) = l i k e l i h o o d × p r i o r e v i d e n c e = P ( x ∣ ω i ) P ( ω i ) P ( x ) = P ( x ∣ ω i ) P ( ω i ) ∑ j = 1 n P ( x ∣ ω j ) P ( ω j ) P(\omega_{i}|x)=\frac{likelihood\times prior}{evidence}=\frac{P(x|\omega_{i})P(\omega_{i})}{P(x)}=\frac{P(x|\omega_{i})P(\omega_{i})}{\sum_{j=1}^{n}P(x|\omega_{j})P(\omega_{j})} P(ωix)=evidencelikelihood×prior=P(x)P(xωi)P(ωi)=j=1nP(xωj)P(ωj)P(xωi)P(ωi)
其中 ω i \omega_{i} ωi为类别, x x x为样本。 P ( x ) P(x) P(x)为在数据集D中出现的概率,属于一个依据(evidence); P ( ω i ) P(\omega_{i}) P(ωi)为数据集中出现该类别的概率,属于先验概率(prior); P ( x ∣ ω i ) P(x|\omega_{i}) P(xωi)属于似然函数(likehood)。所求的 P ( ω i ∣ x ) P(\omega_{i}|x) P(ωix)为后验概率(posterior)。
因为对于给定的样本 x x x,所有类别的 P ( x ) P(x) P(x)都相同,所以:
P ( ω i ∣ x ) ∝ P ( x ∣ ω i ) P ( ω i ) P(\omega_{i}|x)\propto P(x|\omega_{i})P(\omega_{i}) P(ωix)P(xωi)P(ωi)

在这里插入图片描述

概率函数:有3种形式
g i ( x ) = P ( ω i ∣ x ) ∝ P ( x ∣ ω i ) P ( ω i ) ∝ ln ⁡ P ( x ∣ ω i ) + ln ⁡ P ( ω i ) g_{i}(x)=P(\omega_{i}|x)\propto P(x|\omega_{i})P(\omega_{i})\propto \ln P(x|\omega_{i})+\ln P(\omega_{i}) gi(x)=P(ωix)P(xωi)P(ωi)lnP(xωi)+lnP(ωi)
最优决策,也称为最小错误率贝叶斯决策: ω ∗ = max ⁡ ω ∈ Y P ( ω ∣ x ) = max ⁡ ω ∈ Y [ ln ⁡ P ( x ∣ ω ) + ln ⁡ P ( ω ) ] \omega^{*}=\max_{\omega\in \mathcal{Y}}P(\omega|x)=\max_{\omega\in \mathcal{Y}}[\ln P(x|\omega)+\ln P(\omega)] ω=ωYmaxP(ωx)=ωYmax[lnP(xω)+lnP(ω)]

最小风险贝叶斯决策:

设有 K K K种可能的标记, Y = { ω 1 , . . . , ω K } \mathcal{Y}=\{\omega_{1},...,\omega_{K}\} Y={ω1,...,ωK}, λ i j \lambda_{ij} λij是将真实标记为 ω j \omega_{j} ωj的样本误分类为 ω i \omega_{i} ωi所产生的的损失。基于后验概率 P ( ω ∣ x ) P(\omega|\bm{x}) P(ωx)可获得将样本 x \bm{x} x分类为的 ω i \omega_{i} ωi的期望损失,即在样本 x \bm{x} x的条件风险(决策论中将期望损失称为风险)
R ( ω i ∣ x ) = ∑ j = 1 K λ i j P ( ω j ∣ x ) R(\omega_{i}|\bm{x})=\sum_{j=1}^{K}\lambda_{ij}P(\omega_{j}|\bm{x}) R(ωix)=j=1KλijP(ωjx)
通过最小化风险进行决策:
ω ∗ = arg ⁡ min ⁡ ω ∈ Y R ( ω ∣ x ) \omega^{*}=\arg \min_{\omega\in \mathcal{Y}}{R(\omega|\bm{x})} ω=argωYminR(ωx)
λ i j = { 0 ,   i f   i = j 1 ,   o t h e r w i s e \lambda_{ij}=\left\{\begin{matrix} 0,\ if\ i=j\\ 1,\ otherwise \end{matrix}\right. λij={0, if i=j1, otherwise
此时条件风险为:
R ( ω ∣ x ) = 1 − P ( c ∣ x ) R(\omega|\bm{x})=1-P(c|\bm{x}) R(ωx)=1P(cx)此时最小风险贝叶斯决策就变为最小分类错误率的贝叶斯决策:
ω ∗ = max ⁡ ω ∈ Y P ( ω ∣ x ) \omega^{*}=\max_{\omega\in \mathcal{Y}}P(\omega|x) ω=ωYmaxP(ωx)

总结

最小化决策风险首先要获得后验概率 P ( ω ∣ x ) P(\omega|\bm{x}) P(ωx),现实任务中通常很难获得,从这个角度说,机器学习的方法所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P ( ω ∣ x ) P(\omega|\bm{x}) P(ωx)。从计算后验概率 P ( ω ∣ x ) P(\omega|\bm{x}) P(ωx)的策略上来说,可以分为判别式模型(discriminative models)生成式模型(generative models)。前者为给定样本 x \bm{x} x,直接建模 P ( ω ∣ x ) P(\omega|\bm{x}) P(ωx)来预测类别,例如决策树,BP神经网络和SVM;后者为给定样本 x \bm{x} x,建模联合概率分布 P ( x ∣ ω ) P(\bm{x}|\omega) P(xω),然后再得到 P ( ω ∣ x ) P(\omega|\bm{x}) P(ωx),例如朴素贝叶斯分类器。
对于生成式模型来说,必然考虑:
P ( ω ∣ x ) = P ( x ∣ ω ) P ( ω ) P ( x ) P(\omega|\bm{x})=\frac{P(\bm{x}|\omega)P(\omega)}{P(\bm{x})} P(ωx)=P(x)P(xω)P(ω)
P ( x ∣ ω ) P(\bm{x}|\omega) P(xω)来说,涉及到关于 x \bm{x} x的所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。例如,假设样本有 d d d个属性都是二值的,则样本空间有 2 d 2^{d} 2d中可能的取值,现实应用中这个值远大于训练样本 m m m个,等价于说很多样本取值的在训练集中没有出现,所以直接使用频率来估计 P ( x ∣ ω ) P(\bm{x}|\omega) P(xω)在实际应用中是不可行的。

贝叶斯分类器

朴素贝叶斯分类器

从上述的总结可知,直接根据有限训练集中出现的样本频率去估计联合概率是行不通的。为了解决这个问题,朴素贝叶斯采用了属性条件独立性假设,即假设 P ( x ∣ c ) P(\bm{x}|c) P(xc) x \bm{x} x特征向量的各维属性相互独立,一共 d d d个属性
P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) ∝ P ( c ) P ( x ∣ c ) = P ( c ) ∏ i = 1 d P ( x i ∣ c ) P(c|\bm{x})=\frac{P(c)P(\bm{x}|c)}{P(\bm{x})} \propto P(c)P(\bm{x}|c)=P(c)\prod_{i=1}^{d}P(x_{i}|c) P(cx)=P(x)P(c)P(xc)P(c)P(xc)=P(c)i=1dP(xic)
决策:
h ( x ) = arg ⁡ max ⁡ c ∈ C p ( c ) ∏ i = 1 d P ( x i ∣ c ) h(\bm{x})=\arg \max_{c \in C}p(c)\prod_{i=1}^{d}P(x_{i}|c) h(x)=argcCmaxp(c)i=1dP(xic)
上式就是朴素贝叶斯分类器的表达式。
朴素贝叶斯分类器的训练过程就是基于训练集 D D D确定类别先验概率 p ( c ) p(c) p(c)和每个属性估计条件条件概率 P ( x i ∣ c ) P(x_{i}|c) P(xic)。对于每一个测试样本 x \bm{x} x,带入 h ( x ) h(\bm{x}) h(x),根据从训练集确定好的 p ( c ) p(c) p(c) p ( x i ∣ c ) p(x_{i}|c) p(xic)从而可以算出 h ( x ) h(\bm{x}) h(x)
(1)类别先验概率: P ( c ) = ∣ D c ∣ ∣ D ∣ P(c)=\frac{|D_{c}|}{|D|} P(c)=DDc
(2)属性的条件概率:
x i x_{i} xi离散情况:
P ( x i ∣ c ) = ∣ D c , x i ∣ ∣ D c ∣ P(x_{i}|c)=\frac{|D_{c,x_{i}}|}{|D_{c}|} P(xic)=DcDc,xi
其中 D c , x i D_{c,x_{i}} Dc,xi表示在 D c D_{c} Dc中第 i i i个属性上取值为 x i x_{i} xi的样本组成的集合。
x i x_{i} xi连续情况,就要考虑概率密度函数。可以假定 P ( x i ∣ c ) ∼ N ( μ c , i , c , i ) P(x_{i}|c) \sim \mathcal{N}(\mu_{c,i},c,i) P(xic)N(μc,i,c,i) P ( x i ∣ c ) = 1 2 π σ c , i exp ⁡ ( − ( x i − μ c , i ) 2 2 σ c , i 2 ) P(x_{i}|c)=\frac{1}{\sqrt{2\pi}\sigma_{c,i}}\exp ({-\frac{(x_{i}-\mu_{c,i})^{2}}{2\sigma^{2}_{c,i}}}) P(xic)=2π σc,i1exp(2σc,i2(xiμc,i)2)
其中,这表示特征 x i x_{i} xi与表现为类别 c c c的概率满足正态分布, μ c , i \mu_{c,i} μc,i σ c , i 2 \sigma^{2}_{c,i} σc,i2为类别 c c c的样本在 i i i属性上的取值的均值和标准差。
拉普拉斯修正:
当测试样本中出现训练集没有出现过的属性 x i x_{i} xi时, P ( x i ∣ c ) = 0 P(x_{i}|c)=0 P(xic)=0,此时连乘式得到的结果会0。此时需要进行概率值的平滑,给予 P ( x i ∣ c ) P(x_{i}|c) P(xic)一个较小的概率值。
P ^ ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P ^ ( x i ∣ c ) = ∣ D c , x i ∣ + 1 ∣ D c ∣ + N i \hat{P}(c)=\frac{|D_{c}|+1}{|D|+N} \\ \hat{P}(x_{i}|c)=\frac{|D_{c,x_{i}}|+1}{|D_{c}|+N_{i}} P^(c)=D+NDc+1P^(xic)=Dc+NiDc,xi+1
拉普拉斯修正避免了因训练集样本不充分而导致的概率值为0的问题,该修正实质上假设了属性值与类别均匀分布,这相当于额外引入的先验。在数据集变大时,修正的影响可以可以被忽略,使得估值趋向于实际概率值。
现实任务中,朴素贝叶斯分类器有多种使用方式。若任务对预测速度要求较高,则给定训练集,将分类器涉及到的所有概率估值事先存储,预测时只需要查表可进行判别;若任务更换频繁,可采用惰性学习的方法,先不进行任何训练,等收到预测请求时再根据数据集进行概率估值。

正态密度的贝叶斯分类器

h ( x ) = arg ⁡ max ⁡ c ∈ C p ( c ) p ( x ∣ c ) h(x)=\arg \max_{c \in C}p(c)p(x|c) h(x)=argmaxcCp(c)p(xc)中的 p ( x ∣ c ) p(x|c) p(xc)满足正态分布。
正态分布: p ( x ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^{2}}{2\sigma^{2}}) p(x)=2π σ1exp(2σ2(xμ)2)
均值 μ = ε [ x ] = ∫ − ∞ ∞ x p ( x ) d x \mu=\varepsilon[x]=\int_{-\infty}^{\infty}xp(x)dx μ=ε[x]=xp(x)dx
方差 σ 2 = ε [ ( x − μ ) 2 ] = ∫ − ∞ ∞ ( x − μ ) 2 p ( x ) d x \sigma^{2}=\varepsilon[(x-\mu)^{2}]=\int_{-\infty}^{\infty}(x-\mu)^{2}p(x)dx σ2=ε[(xμ)2]=(xμ)2p(x)dx
多元正态分布概率密度函数:
p ( x ) ∼ N ( μ , Σ ) , x = [ x 1 , x 2 , . . . , x d ] T p( \rm{x})\sim N(\mu, \Sigma),x=[x_{1},x_{2},...,x_{d}]^{T} p(x)N(μ,Σ),x=[x1,x2,...,xd]T
p ( x ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] p( \rm{x})=\frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}}\exp[-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)] p(x)=(2π)d/2Σ1/21exp[21(xμ)TΣ1(xμ)]
M e a n : μ = ε [ x ] = ∫ x p ( x ) d x ,   μ i = ε [ x i ] {\rm{Mean:}}\mu=\varepsilon[ {\rm{x}}]=\int {\rm{x}}p({\rm{x}})d{\rm{x}},\ \mu_{i}=\varepsilon[x_{i}] Mean:μ=ε[x]=xp(x)dx, μi=ε[xi]
C o v a r i a n c e   M a t r i x : Σ = ε [ ( x − μ ) ( x − μ ) T ] = ∫ ( x − μ ) ( x − μ ) T d x = [ σ 11 σ 12 ⋯ σ 1 d σ 21 σ 22 ⋯ σ 2 d ⋮ ⋮ ⋱ ⋮ σ d 1 σ d 2 ⋯ σ d d ] {\rm{Covariance\ Matrix:}}\Sigma=\varepsilon[({\rm{x}}-\mu)({\rm{x}}-\mu)^{T}]=\int({\rm{x}}-\mu)({\rm{x}}-\mu)^{T}d{\rm{x}}\\ =\begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1d}\\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2d} \\ \vdots&\vdots&\ddots&\vdots \\ \sigma_{d1} & \sigma_{d2} & \cdots & \sigma_{dd} \\ \end{bmatrix} Covariance Matrix:Σ=ε[(xμ)(xμ)T]=(xμ)(xμ)Tdx=σ11σ21σd1σ12σ22σd2σ1dσ2dσdd
σ i j = ε [ ( x i − μ i ) ( x j − μ j ) ] \sigma_{ij}=\varepsilon[(x_{i}-\mu_{i})(x_{j}-\mu_{j})] σij=ε[(xiμi)(xjμj)],如果 x i x_{i} xi x j x_{j} xj相互独立,那么 σ i j = 0 \sigma_{ij}=0 σij=0

高斯密度下的判别函数
在这里插入图片描述
在不同协方差下的形式:
Case1: Σ = σ 2 I \Sigma=\sigma^{2}I Σ=σ2I
表示各 x i , i = 1 , 2 , . . . , d x_{i},i=1,2,...,d xi,i=1,2,...,d之间相互独立,且具有相同的正态分布方差 σ 2 \sigma^{2} σ2。此时可得: g i ( x ) = − ∥ x − μ i ∥ 2 σ 2 + ln ⁡ P ( ω i ) g_{i}({\rm{x}})=-\frac{\parallel {\rm{x}-\mu_{i}}\parallel }{2\sigma^{2}}+\ln P(\omega_{i}) gi(x)=2σ2xμi+lnP(ωi)
g i ( x ) = − 1 2 σ 2 [ x T x − 2 μ i T x + μ i T μ i ] + ln ⁡ P ( ω i ) g_{i}({\rm{x}})=-\frac{1}{2\sigma^{2}}[{\rm{x}}^{T}{\rm{x}}-2\mu_{i}^{T}{\rm{x}}+\mu_{i}^{T}\mu_{i}]+\ln P(\omega_{i}) gi(x)=2σ21[xTx2μiTx+μiTμi]+lnP(ωi)
抛除与类别无关的项 x T x 2 σ 2 \frac{{\rm{x}}^{T}{\rm{x}}}{2\sigma^{2}} 2σ2xTx,因为这一项每个 g 1 , 2 , . . . , k g_{1,2,...,k} g1,2,...,k个函数中相同。化简得:
g i ( x ) = w i T x + w i 0 ,   w i = μ i T σ 2 ,   w i 0 = − 1 2 σ 2 μ i T μ i + ln ⁡ P ( ω i ) g_{i}({\rm{x}})={\rm{w_{i}^T}}{\rm{x}}+w_{i0},\ {\rm{w_{i}}}=\frac{\mu_{i}^{T}}{\sigma^{2}}, \ w_{i0}=-\frac{1}{2\sigma^{2}}\mu_{i}^{T}\mu_{i}+\ln P(\omega_{i}) gi(x)=wiTx+wi0, wi=σ2μiT, wi0=2σ21μiTμi+lnP(ωi)
二类决策面(判别函数相等的点构成): g i ( x ) − g j ( x ) = 0 g_{i}({\rm{x}})-g_{j}({\rm{x}})=0 gi(x)gj(x)=0即:
在这里插入图片描述
此时向量 w {\rm{w}} w(连接两个圆心的向量)与法向量平面垂直。
当类别先验概率相等时,退化为最小距离分类器。此时有:
w = μ i − μ j {\rm{w}}=\mu_{i}-\mu_{j} w=μiμj
x 0 = 1 2 ( μ i + μ j ) \rm{x_{0}}=\frac{1}{2}(\mu_{i}+\mu_{j}) x0=21(μi+μj)
如下所示:两个圆球表示样本的分布,圆心附近为样本的密集出,也就是 μ \mu μ,所有在分割面上的样本具有相同的概率值。
在这里插入图片描述

Case2: Σ i = Σ \Sigma_{i}=\Sigma Σi=Σ
是指 x {\rm{x}} x对所有类别的协方差矩阵都相等。
在这里插入图片描述
在这里插入图片描述
Case3: Σ i = a r b i t r a r y \Sigma_{i}=arbitrary Σi=arbitrary,此时除以上两种情况外的情况
在这里插入图片描述
决策面比较复杂, g i ( x ) = g j ( x ) g_{i}({\rm{x}})=g_{j}(\rm{x}) gi(x)=gj(x),可能为非线性。
在这里插入图片描述

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页