贝叶斯决策理论
一、 简介
假设我们有一个样本(特征向量),用 X X X表示。我们的总体被分为 g g g个类别,记为 w k ( k = 1 , … g ) w_k (k=1,\dots g) wk(k=1,…g).
决策准则是一个函数,记为 δ : R p → A \delta:\mathbb{R}^p \to \mathcal A δ:Rp→A,其中 A = { a 1 , … , a c } \mathcal A = \{a_1,\dots,a_c\} A={ a1,…,ac}. 这里的 A \mathcal A A我们称之为操作空间,或者操作集合,也就是说是我们通过决策函数之后所需要采取的动作。
我们希望能够在某个特定的准则之下得到最优的决策函数。在这篇文章中,我们只考虑只有一个特征的样本,即 p = 1 p=1 p=1.
二、奈曼-皮尔逊准则
1.定义
假设样本只有两个类别,即 g = 2 , A = ( a 1 , a 2 ) g=2, \mathcal A=(a_1,a_2) g=2,A=(a1,a2).
对 w k w_k wk的条件概率密度函数: f k ( x ) = f ( x ∣ w k ) f_k(x)=f(x\mid w_k) fk(x)=f(x∣wk)
在 w k w_k wk类中 X X X属于某一个区间的概率: ∫ a b f k ( x ) d x = P ( X ∈ [ a , b ] ∣ Z = w k ) \int_a^b f_k(x)dx=\mathbb P(X \in [a,b]\mid Z=w_k) ∫abfk(x)dx=P(X∈[a,b]∣Z=wk)
决策函数现在可以定义为:
δ ( x ) = { a 1 if x ∈ R 1 a 2 if x ∈ R 2 \delta(x)=\left\{\begin{array}{ll}{a_{1}} & {\text { if } x \in \mathcal{R}_{1}} \\ {a_{2}} & {\text { if } x \in \mathcal{R}_{2}}\end{array}\right. δ(x)={
a1a2 if x∈R1 if x∈R2
这里的 R 1 , R 2 \mathcal R_1,\mathcal R_2 R1,R2是决策区域。
这样,我们可以定义两类错误:属于 w 1 w_1 w1的样本被采取动作 a 2 a_2 a2和属于 w 2 w_2 w2的样本被采取动作 a 1 a_1 a1:
α = P ( δ ( X ) = a 2 ∣ Z = ω 1 ) = ∫ R 2 f 1 ( x ) d x β = P ( δ ( X ) = a 1 ∣ Z = ω 2 ) = ∫ R 1 f 2 ( x ) d x \begin{aligned} \alpha &=\mathbb{P}\left(\delta(X)=a_{2} | Z=\omega_{1}\right)=\int_{\mathcal{R}_{2}} f_{1}(x) dx \\ \beta &=\mathbb{P}\left(\delta(X)=a_{1} | Z=\omega_{2}\right)=\int_{\mathcal{R}_{1}} f_{2}(x) dx \end{aligned} αβ=P(δ(X)=a2∣Z=ω1)=∫R2f1(x)dx=P(δ(X)=a1∣Z=ω2)=∫R1f2(x)dx
从下面的图中我们可以清晰地看出 α \alpha α和 β \beta β的定义。
如果从Sensibility和Specificity的角度来说, α = 1 − S p e c i f i c i t y , β = 1 − S e n s i b i l i t y \alpha = 1-Specificity, \beta = 1- Sensibility α=1−Specificity,β=1−Sensibility. 具体的定义请看下一节。
2. 二分类混淆矩阵(Confusion matrix g=2)
在机器学习中,混淆矩阵是一种常用的用来评价算法性能的可视化方法。下面我们来看看二分类问题下的混下矩阵。
真假表示样本的真是类别,阴阳表示决策函数预测的样本类别。
Positive 阳 | Negtive 阴 | |
---|---|---|
True 真 | TP 真阳例 | FN 假阴例 |
False 假 | FP 假阳例 | TN 真阴例 |
从这张表,我们可以定义出几个常用而又容易混淆的率:
错 误 率 ( E r r o r r a t e ) = F N + F P T P + F N + F P + T N 准 确 率 ( A c c u r a c y ) = T P + T N T P + F N + F P + T N 查 准 率 ( P r e c i s i o n 精 确 度 ) = T P T P + F P 查 全 率 ( R e c a l l r a t e 召 回 率 ) = T P T P + F N T P R ( T r u e p o s i t i v e r a t e ) = T P T P + F N ( S e n s i t i v i t y ) F P R ( F a l s e p o s i t i v e r a t e ) = F P F P + T N ( 1 − S p e c i f i c i t y ) F 1 − S c o r e = 2 ∗ P r e c i s i o n ∗ R e c a l l P r e c i s i o n ∗ R e c a l l \begin{aligned} 错误率(Error\ rate) &= \frac{FN+FP}{TP+FN+FP+TN}\\ \\ 准确率(Accuracy) &= \frac{TP+TN}{TP+FN+FP+TN}\\ \\ 查准率(Precision精确度)&=\frac{TP}{TP+FP}\\ \\ 查全率(Recall\ rate召回率)&=\frac{TP}{TP+FN}\\ \\ TPR(True\ positive\ rate) &=\frac{TP}{TP+FN}\qquad(Sensitivity)\\ \\ FPR(False\ positive\ rate)&=\frac{FP}{FP+TN}\qquad(1-Specificity)\\ \\ F1-Score &= \frac{2*Precision*Recall}{Precision*Recall} \end{aligned} 错误率(Error rate)准确率(Accuracy)查准率(Precision精确度)查全率(Recall rate召回率)TPR(True positive rate)FPR(False positive rate)F1−Score=TP+FN+FP+TNFN+FP=TP+FN+FP+TNTP+TN=TP+FPTP=TP+FNTP=TP+FNTP