第三节贝叶斯决策（统计决策理论）

前提：已知先验概率、类条件概率

分类可以看作一种决策，即根据观测对样本做出应归属某一类的决策。

实际应用中的不同情况
- 不知道各类的先验概率
  - 假设各类的先验概率相等
  - 最小最大决策准则
- 难于确定误判的代价
  - 最小错误率决策准则
- 某一种错误较另一种错误更重要
  - 最小风险决策准则
  - 限定错误率的两类判别决策准则

3.1 随机模式分类

模式的类型：
- 确定型：一定条件下必然发生或不发生（信息确定、充分）
- 随机型：从已观察到的模式无法精确预知其类别（信息不充分、需分析统计规律）
贝叶斯公式：设 $\omega_1$ 代表正常细胞， $\omega_2$ 代表异常细胞(癌细胞)。
$\color{red}P(X,\omega_i)=P(X|\omega_i)P(\omega_i)=P(\omega_i|X)P(X)\\ P(X)=\sum\limits_{j=1}^{c} P(X|\omega_j)P(\omega_j)\quad c表示总类别数$
- 先验概率：预先已知的或者可以估计的模式识别系统位于某种类型的概率。 $P(\omega_1),P(\omega_2)$ 称为先验概率，根据统计资料估计得到，
$P(\omega_1)+P(\omega_2)=1\\ P(\omega_1)>P(\omega_2)$
- 类条件概率：系统位于某种类型条件下模式样本 $x$ 出现的概率。 $P(x|\omega_1),P(x|\omega_2)$ 称为类条件概率，根据训练样本统计分析得到，
- 后验概率：系统在某个具体的模式样本 $x$ 条件下位于某种类型的概率，可根据贝叶斯公式计算，用作分类判决的依据。 $P(\omega_1|x),P(\omega_2|x)$ 称为后验概率，
  $P(\omega_1|x)+P(\omega_2|x)=1$
- 联合概率： $P(X,\omega_i)$
贝叶斯决策：在类条件概率密度和先验概率已知的情况下，通过贝叶斯公式比较样本属于两类的后验概率，为使总体错误率最小，将类别决策为后验概率大的一类。
$\color{red}P(\omega_i|X)=\dfrac{P(X|\omega_i)P(\omega_i)}{P(X)}\\$

3.1.1 最小错误率贝叶斯决策

分类错误：
- 模式特征 $X$ ： $d$ 维特征向量 $x=[x_1,x_2,...,x_d]^T$
- 分类错误的概率 $P (e ∣ x)$ ：是模式特征 $X$ 的函数
  $P(e|x)=\begin{cases} P(\omega_2|x),x\in \omega_1\\P(\omega_1|x),x\in \omega_2 \end{cases}$
- 平均错误率 $P (e)$ ：是随机函数 $P (e ∣ x)$ 的期望
  $P(e)=\int P(e|x)P(x)\;dx$
最小错误率：
$\color{red}若\;P(\omega_k|x)=\max\limits_{i=1,2}P(\omega_i|x),则\; x\in \omega_k$
$\color{White}\colorbox{Fuchsia}{例题}$ ：以两类问题（癌细胞与正常细胞的分类）为例。

解：假设根据某种分类规则，模式（特征）空间被分成两个部分（以 $H$ 为分界面） $R_1$ 中的样本被分为第一类， $R_2$ 中的样本被分为第二类。

已知先验概率 $P(\omega_1),P(\omega_2)$ ，根据数据得到类条件概率 $P(x|\omega_1),P(x|\omega_2)$

利用贝叶斯公式得到后验概率 $P(\omega_1|x),P(\omega_2|x)$

当 $P(\omega_1|x)=P(\omega_2|x)$ 时的分界线称为决策边界或分类线。
- 计算错误率：
  - 第一类样本分类错误率： $\int_{\color{red}{R_2}} P(x|\omega_1)P(\omega_1)\;dx$
  - 第二类样本分类错误率： $\int_{\color{red}{R_1}} P(x|\omega_2)P(\omega_2)\;dx$
  - 平均分类出错率：
$\begin{aligned} P(e)&=\int_{\color{red}{R_2}} P(x|\omega_1)P(\omega_1)+\int_{\color{red}{R_1}} P(x|\omega_2)P(\omega_2)\;dx\\ &=\int_{\color{red}{R_2}} P(\omega_1|x)P(x)+\int_{\color{red}{R_1}} P(\omega_2|x)P(x)\;dx\quad 平均分类出错率\\ P(\omega_1)&=\int_{\color{red}{R_2}} P(\omega_1|x)P(x)+\int_{\color{red}{R_1}} P({\color{red}\omega_1|x})P(x)\;dx\quad 全概率公式\\ P(e)&=P(\omega_1)+\int_{\color{red}{R_1}} (P(\omega_2|x)-P({\color{red}\omega_1|x}))P(x)\;dx \end{aligned}$
- 当 $R_1$ 中的样本满足 $P(\omega_2|x)<P(\omega_1|x)$ 时， $P (e)$ 取得最小值。即当 $P(\omega_2|x)=P(\omega_1|x)$ 时，错误率最小。

3.1.2 最小风险贝叶斯决策

将不同类分错造成的后果的严重性并不总是一样的，于是要设计分类规则使得损失（风险）最低

决策论的概念：
- 样本 $x$ ： $d$ 维随机向量 $\vec{x}=[x_1,x_2,...,x_d]^T$ （构成自然空间）
- 类别 $w$ ： $\Omega=\{\omega_1,\omega_2,...,\omega_c\}$ （构成状态空间 $\Omega$ ）
- 决策 $\alpha$ ：分类时所采取的决定。决策 $\alpha_j$ 表示将模式 $\vec{x}$ 指判为 $\omega_j$ 或者拒判。（对随机向量 $\vec{x}$ 可能采取的决策组成的集合构成决策空间 $\{\alpha_1,\alpha_2,...,\alpha_k \}$ ）
  
  注意： $k$ 不一定等于 $c$
决策表：
- 损失函数：对于实际状态为 $\omega_j$ 的向量 $\vec{x}$ ，采取决策 $\alpha_i$ 所带来的损失
  ${\color{red}\lambda_{ji} = \lambda(\alpha_i,\omega_j)},\quad i=1,...,k,\quad j = 1,...,c$
  若希望尽可能避免将状态 $\omega_j$ 错判为 $\omega_i$ （即该分类错误损失较大），则可以将相应的 $\lambda_{ji}$ 的值调大一些。
- 决策表：决策表的形成是困难的，需要大量的领域知识。决策表不同会导致决策结果的不同。
最小风险：把各种分类错误引起的损失考虑进去的贝叶斯决策法则，以使得期望的损失最小。
- 样本 $x$ 的期望损失：通过对属于不同状态 $\omega_j$ 的后验概率 $P(\omega_j|x)$ 采取决策 $\alpha_i$ 的期望损失（期望风险）
  $R(\alpha_i|x)=E[\lambda_{ji}|x]=\sum\limits_{j=1}^c \lambda_{ji}P(\omega_j|x),\qquad i=1,..,k$
- 最小风险：
  $\color{red}若\;R(\alpha_k|x)=\min\limits_{i=1,...,c}R(\alpha_i|x),则\; \alpha=\alpha_k$
最小风险和最小错误率贝叶斯决策法则的关系：
- 两类最小错误率贝叶斯决策规则
  $\color{red}\;P(\omega_1|x)\gtrless P(\omega_2|x), \;\ni x\in \begin{cases}\omega_1\\\omega_2 \end{cases}$
- 多类最小错误率贝叶斯决策规则
  $\color{red}\;P(\omega_k|x)=\max\limits_{i=1,...,c}P(\omega_i|x),\;\ni x\in \omega_k$
- 多类最小风险贝叶斯决策规则
  $\color{red}\;R(\alpha_k|x)=\min\limits_{i=1,...,c}\sum\limits_{j=1}^c \lambda_{ji}P(\omega_j|x),\;\ni \alpha=\alpha_k$
- 关系：当损失函数为 $0 - 1$ 损失函数 $Cannot read properties of undefined (reading 'type')$ 时，最小风险贝叶斯决策就变成了最小错误率贝叶斯决策。即后者时前者的一个特例。

3.2 实际应用中的不同情况

3.2.1 最小最大决策准则

不知道各类的先验概率 $P(\omega_i)$ ，或所用先验概率与实际有误差

引入：对于最小风险贝叶斯决策，判定的平均风险为
$R=\int\limits_{R_1}\left[\lambda_{11}P(x|\omega_1)P(\omega_1)+\lambda_{21}P(x|\omega_2)P(\omega_2)\right]dx+\int\limits_{R_2}\left[\lambda_{22}P(x|\omega_2)P(\omega_2)+\lambda_{12}P(x|\omega_1)P(\omega_1)\right]dx\\$
根据条件 $P(\omega_2)=1-P(\omega_1)$ ， $\int\limits_{R_2}P(x|\omega_1)dx=1-\int\limits_{R_1}P(x|\omega_1)dx$ 化简得
$\begin{aligned} R&=\left(\lambda_{22}+(\lambda_{21}-\lambda_{22})\int\limits_{R_1}P(x|\omega_2)\;dx\right)\\ &+P(\omega_1)\cdot \left((\lambda_{11}-\lambda_{22})+(\lambda_{12}-\lambda_{11})\int\limits_{R_2}P(x|\omega_1)dx-(\lambda_{21}-\lambda_{22})\int\limits_{R_1}P(x|\omega_2)dx \right)\\ &=\color{red}a+b\cdot P(\omega_1) \end{aligned}$
- 发现：固定类条件概率，误判代价，以及分界面（即划分区域 $R_1,R_2$ ）时，平均风险 $R$ 是先验概率 $P(\omega_1)$ 的线性函数。
最小最大决策：

在 $[0, 1]$ 区间内，对先验概率 $P(\omega_1)$ 取若干个不同的值，按最小风险决策确定相应的决策域，从而计算相应的最小风险 $R^*$ ，得出最小贝叶斯风险与先验概率的关系曲线

$R=a+bP(\omega_1)$ 线性：决策域固定

$R^*\rightarrow P(\omega_1)$ 非线性：不同 $P(\omega_1)$ 决策域不同
- 线段 $C D$ 表示：对应先验概率为 $P_A(\omega_1)$ 的最小风险而确定的判决面固定时，当 $P(\omega_1)$ 变化， $R$ 而形成的变化。是一个在 $[a, a + b]$ 之间的线性函数。
  - 平均损失要比最佳的判决面大许多
- 线段 $C^{'} D^{'}$ 表示：按照 $P_B(\omega_1)$ 下最小风险决策规则。
  - 保证在不调整判决面的情况下，不管 $P(\omega_1)$ 如何变化，最大风险都为最小
    
    按最坏的情况考虑、保守但稳妥的做法
分类器：用似然比表示决策规则
- 第一类风险： $R(\alpha_1|x)=\lambda_{11}P(x|\omega_1)P(\omega_1)+\lambda_{21}P(x|\omega_2)P(\omega_2)$
- 第二类风险： $R(\alpha_2|x)=\lambda_{12}P(x|\omega_1)P(\omega_1)+\lambda_{22}P(x|\omega_2)P(\omega_2)$
- 分类器：若 $R(\alpha_1|x)\gtrless R(\alpha_2|x)$ ，则 $x\in \begin{cases}\omega_1\\\omega_2 \end{cases}$
  - 化简得到：若 $\dfrac{P(x|\omega_1)}{P(x|\omega_2)} \gtrless \dfrac{(\lambda_{21}-\lambda_{22})(1-P(\omega_1))}{(\lambda_{12}-\lambda_{11})P(\omega_1)}$ ，则 $x\in \begin{cases}\omega_1\\\omega_2 \end{cases}$
  - 其中 $\dfrac{(\lambda_{21}-\lambda_{22})(1-P(\omega_1))}{(\lambda_{12}-\lambda_{11})P(\omega_1)}$ 称为阈值（将最大的最小风险值的先验概率 $P^*(\omega_1)$ 代入）， $\dfrac{P(x|\omega_1)}{P(x|\omega_2)}$ 称为似然比。
设计过程：
- $\color{red}\bigodot$ 1. 按最小损失准则找出对应于 $[0, 1]$ 中的各个不同值的 $P(\omega_1)$ 的最佳决策面，计算相应的最小平均损失，得到曲线函数
- $\color{red}\bigodot$ 2. 找出使 $R$ 最大的 $P^*(\omega_1)$ ，最后运用最小风险决策规则构造分类器
  $若\dfrac{P(x|\omega_1)}{P(x|\omega_2)} \gtrless \dfrac{(\lambda_{21}-\lambda_{22})(1-P^*(\omega_1))}{(\lambda_{12}-\lambda_{11})P^*(\omega_1)},\;\ni x\in \begin{cases}\omega_1\\\omega_2 \end{cases}$

3.2.2 限定错误率的两类判别决策准则

最小错误率贝叶斯决策使得两类错判的总概率最小

最小风险贝叶斯决策使得两类错判的 总风险(总代价) 最小

实际中，有时要求限制某一类错误率不大于某个常数而使另一类错误率尽可能地小

某一种错误较另一种错误更重要，需要优先满足某类错误

目标：
$\color{red}\min\limits_{R_1,R_2} P_1(e),\ni\; P_2(e)=\varepsilon_0\\ \begin{aligned} 其中 P_1(e)&=\int_{\color{red}{R_2}} P(x|\omega_1)P(\omega_1)\;dx=1-\int_{\color{red}{R_1}} P(x|\omega_1)P(\omega_1)\;dx\\ P_2(e)&=\int_{\color{red}{R_1}} P(x|\omega_2)P(\omega_2)\;dx \end{aligned}$
解决：拉格朗日乘子法
- 转化约束极值问题：
  $\min\gamma=P_1(e)+\beta\;(P_2(e)-\varepsilon_0),\qquad \beta 为拉格朗日乘子$
- 代入已知：
  $\begin{aligned} \gamma&=\int_{R_2}P(x|\omega_1)P(\omega_1)dx+\beta\;(\int_{R_1}P(x|\omega_2)P(\omega_2)\;dx-\varepsilon_0) \\ &=(1-\beta\varepsilon_0)+\int_{R_1}\left[\beta\cdot P(x|\omega_2)P(\omega_2)-P(x|\omega_1)P(\omega_1)\right]\;dx \\ \end{aligned}$
- 要使 $\gamma$ 最小，即在 $R_1$ 区域中，使 $\beta\cdot P(x|\omega_2)P(\omega_2)-P(x|\omega_1)P(\omega_1)<0$ ，故
  $\dfrac{P(x|\omega_1)}{P(x|\omega_2)}>\beta\cdot \dfrac{P(\omega_1)}{P(\omega_2)}=\beta'$
决策规则(Neyman—Pearson 或 N-P 判决)：
$\color{red}若\dfrac{P(x|\omega_1)}{P(x|\omega_2)}\gtrless \beta',\;\ni x\in \begin{cases}\omega_1\\\omega_2 \end{cases}$
其中阈值 $\beta'$ 满足 $\dfrac{\partial \gamma}{\partial \beta}=0$ ，即决策边界使得 $\int_{{R_1}} P(x|\omega_2)P(\omega_2)\;dx=\varepsilon_0$

阈值的求解需要已知类条件概率曲线