Neyman-Pearson 奈曼-皮尔逊决策分析

Neyman-Pearson 奈曼-皮尔逊决策分析

1. 决策问题的引入——二分类问题

二分类问题中犯错的可能性有两种情况:
①采取决策 w 1 w_1 w1时的实际自然状态为 w 2 w_2 w2,此情况错误率可定义为 P ( w 2 ) P 2 ( e r r o r ) P(w_2)P_2(error) P(w2)P2(error),其中 P 2 ( e r r o r ) = ∫ R 1 p ( x ∣ w 2 ) d x (1) P_2(error)=\int_{R_1}p(x|w_2)dx \tag{1} P2(error)=R1p(xw2)dx(1)
②采取决策 w 2 w_2 w2时的实际自然状态为 w 1 w_1 w1,此情况错误率可定义为 P ( w 1 ) P 1 ( e r r o r ) P(w_1)P_1(error) P(w1)P1(error),其中 P 1 ( e r r o r ) = ∫ R 2 p ( x ∣ w 1 ) d x (2) P_1(error)=\int_{R_2}p(x|w_1)dx \tag{2} P1(error)=R2p(xw1)dx(2)

由于先验概率在某些具体问题中一般是确定的,因此称 P 1 ( e ) , P 2 ( e ) P_1(e),P_2(e) P1(e),P2(e)为两类错误率, R 1 , R 2 R_1,R_2 R1,R2分别是第1,2类错误的决策区域。其图形表示如图所示:

类概率密度
第一类错误:假阳率(FP);
第二类错误:假阴率(FN);

2. Neyman-Pearson决策

2.1 问题转化

在某些实际应用过程中,有时希望保证某一类错误率维持在一个固定水平,以此为前提,考虑另一类错误率尽可能地低。比如在医疗检测时,检测出某种疾病非常重要,可能会要求漏报率即第二类错误达到某一个水平 ε \varepsilon ε(比如0.1%,即灵敏度99.9%),在这个基础上,希望误报率尽可能低。

如果将 w 1 w_1 w1看作是阴性而把 w 2 w_2 w2看作是阳性,那么第一类错误率定义为:
P 1 ( e r r o r ) = ∫ R 2 p ( x ∣ w 1 ) d x (3) P_1(error)=\int_{R_2}p(x|w_1)dx \tag{3} P1(error)=R2p(xw1)dx(3)
第二类错误率定义为:
P 2 ( e r r o r ) = ∫ R 1 p ( x ∣ w 2 ) d x (4) P_2(error)=\int_{R_1}p(x|w_2)dx \tag{4} P2(error)=R1p(xw2)dx(4)
因此可将该问题转化为最优化问题(固定一类错误率,使得另一类错误率尽可能小):
m i n P 1 ( e ) s . t . P 2 ( e ) = ε (5) min{P_1(e)}\\s.t.P_2(e)=\varepsilon \tag{5} minP1(e)s.t.P2(e)=ε(5)

2.2 拉格朗日(language)乘数法

通过引入拉格朗日乘子 λ \lambda λ从而将该有约束条件极值问题写作:
m i n L = P 1 ( e ) + λ ( P 2 ( e ) − ε ) (6) min{L}=P_1(e)+\lambda(P_2(e)-\varepsilon) \tag{6} minL=P1(e)+λ(P2(e)ε)(6)
需要注意的是, L L L函数的最小值是关于两类的分界面求解的。假设 R 1 , R 2 R_1,R_2 R1,R2分别为第一类错误和第二类错误的决策区域, R R R是整个特征空间,且有 R 1 + R 2 = R R_1+R_2=R R1+R2=R,两个决策区域之间的边界称为决策边界或分界面(一维情况下为一个点-决策点),考虑到类条件概率密度的性质,有
∫ R 2 p ( x ∣ w 1 ) d x = 1 − ∫ R 1 p ( x ∣ w 1 ) d x (7) \int_{R_2}p(x|w_1)dx=1-\int_{R_1}p(x|w_1)dx\tag{7} R2p(xw1)dx=1R1p(xw1)dx(7)
将式(3),(4)代入(7)中得:
L = ∫ R 2 p ( x ∣ w 1 ) d x + λ [ ∫ R 1 p ( x ∣ w 2 ) d x − ε ] = ( 1 − λ ε ) + ∫ R 1 [ λ p ( x ∣ w 2 ) − p ( x ∣ w 1 ) ] d x (8) \begin{aligned} L&=\int_{R_2}p(x|w_1)dx+\lambda[\int_{R_1}p(x|w_2)dx-\varepsilon]\\&=(1-\lambda\varepsilon)+\int_{R_1}[\lambda p(x|w_2)-p(x|w_1)]dx \end{aligned}\tag{8} L=R2p(xw1)dx+λ[R1p(xw2)dxε]=(1λε)+R1[λp(xw2)p(xw1)]dx(8)
优化的最终目标是求解使式(8)最小的决策边界(点) x = t x=t x=t
根据拉格朗日求解多元函数条件极值的方法,将(8)分别对 λ \lambda λ和分界面(点) t t t求偏导:
∂ L ∂ t = λ p ( x ∣ w 2 ) − p ( x ∣ w 1 ) ∂ L ∂ λ = ∫ R 1 p ( x ∣ w 2 ) d x − ε (9) \begin{aligned} \frac{\partial L}{\partial t} &= \lambda p(x|w_2)-p(x|w_1)\\ \frac{\partial L}{\partial \lambda} &= \int_{R_1}p(x|w_2)dx-\varepsilon \end{aligned}\tag{9} tLλL=λp(xw2)p(xw1)=R1p(xw2)dxε(9)
由于极值点处的导数都应为0,即在决策边界上应满足:
λ = p ( x ∣ w 1 ) p ( x ∣ w 2 ) ε = ∫ R 1 p ( x ∣ w 2 ) d x (10) \begin{aligned} \lambda&=\frac{p(x|w_1)}{p(x|w_2)}\\ \varepsilon&=\int_{R_1}p(x|w_2)dx \end{aligned}\tag{10} λε=p(xw2)p(xw1)=R1p(xw2)dx(10)
在式(7)中,若要使得 L L L最小,由于第一项 ( 1 − λ ε ) (1-\lambda\varepsilon) 1λε ε , λ \varepsilon,\lambda ε,λ确定后,该项为定值。若希望函数整体趋向最小,则应选择决策区域 R 1 R_1 R1使积分项内全为负值(如图,函数在R_1区域恒大于0,积分结果=面积)。
积分区域
综上,所确定的 R 1 R_1 R1应是所有使得 λ p ( x ∣ w 2 ) − p ( x ∣ w 1 ) < 0 \lambda p(x|w_2)-p(x|w_1)<0 λp(xw2)p(xw1)<0成立的 x x x所组成的区域。
当处于决策区域 R 1 R_1 R1时,由图知应判定为属于 w 1 w_1 w1,由于 R 1 + R 2 = R R_1+R_2=R R1+R2=R,所以其余情况均应判定为属于 w 2 w_2 w2
因而决策规则为:
决策规则

2.3 决策规则扩展

决策规则扩展

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值