机器学习基础整理(第五章) - 分类器的性能评估和改进

总览

性能问题有两方面: 评估 (assessment) 以及提升 (improvement)。

评估与在设计阶段优化参数不同。

在进行评估时，我们还对几个分类器在性能方面之间的比较感兴趣。

如果我们能知道如何评估分类器的性能，我们是否可以将多个分类器的输出组合起来以提高性能呢？

评估 (Assessment)

整体思路

我们需要考虑三方面:

分类器在未知数据中表现得多好？- 判别性 (Discriminability)
分类器对类成员的后验概率的估计效果如何？- 可靠性 (Reliability)
我们如何使用接受者操作特征 (Receiver Operating Characteristic - ROC) 作为性能的指示？

判别性

基本的思想就是根据可用数据来估计错误率 (error rate)。
错误率的缺点在于它是一个单一的性能度量，不会为错误分类 (misclassifications) 和正确分类分配不同的权重。

混淆矩阵 (Confusion Matrix) 通常与错误率结合使用，以帮助显示错误的分布。

用于估计错误率的方法包括：

Holdout estimate
Cross-validation 交叉验证
Jackknife
Bootstrap技术

让 $Y=\{y_i, i = 1, ..., n\}$ 代表训练数据。
每一个 $y_i$ 是一个分割向量 (partitioned vector) $y_i^t = [x_i^t \space \space \space z_i^t]$

其中 ${x_i, i = 1, ..., n\}$ 是衡量 (measurement) (或模式向量 pattern vector)，而 ${z_i, i = 1, ..., n\}$ 是对应的标签。

当 $x_i \in \omega_j$ 的时候， $z_i)_j = 1$ 。否则，等于 $0$ 。

$\omega(z_i)$ 是对应的分类类别标签。

决策规则: $\eta(x;Y) \Rightarrow$ 基于 $Y$ 将 $x$ 分配给类 $\eta$ 的分类器。

定义一个损失函数， $Q (.)$ :
在这里插入图片描述
各种不同类型的误差衡量:

表观错误率 (apparent error rate) (或重新代换率 resubstitution rate) 是通过使用设计集估计错误率得到的。
真实错误率 (true error rate, $e_T$ ) 是错误分类随机选择的模式向量的预期概率 (expected probability)，在从与训练数据相同的分布中抽取无限大测试集 (infinitely large test set) 上计算出来的。
预期错误率 (expected error rate $e_E$ ) 是给定大小的测试集上真实错误的预期值。

Holdout 估计 (留出法)

基本思想是将可用数据分成两个互斥的集合:

训练集
测试集

分类器是使用训练集和在独立集上评估的性能设计的。

问题: 数据使用率低下，估计存在悲观偏差。

对于真实错误率 $e_t$ ， $n$ 个独立测试样本中 $k$ 个错误分类样本(misclassfied samples or errors) 的概率为:
在这里插入图片描述

交叉验证 (Cross Validation)

这个方法也被称为 U方法 (U-method)，留一法 (leave-one-out)，或删除估计 (deleted estimates)。

误差用以下方式计算:

在设计或训练集获得 $n - 1$ 个样本。
在剩余那个样本上进行测试。
对大小为 $n - 1$ 的所有 $n$ 个子集进行重复计算。

估计值近似无偏 (unbiased)，代价是估计量的方差增加 (increased variance)。

若 $Y_j$ 是删除了观测点 $x_j$ 的训练集，其交叉验证误差是:
$e_{CV}=\frac{1}{n}\sum_{i=1}^nQ(\omega(z_j), \eta(x_j, Y_j))$

v-折叠交叉验证 (v-fold cross validation)
v-fold 交叉验证的轮换方法 (rotation method) 将训练集划分为 $v$ 个子集，在 $v - 1$ 上训练并在剩余集上测试。

Bootstrap 技术

该方法包括对观察到的分布进行采样 (sampling) 和替换 (replacement)，以生成可用于校正偏差 (correct for bias) 的观察集。

随机选取数据并允许重复，这被称为 “Sampling With Replacement”

Bootstrap 偏差校正的表观误差为:
$e_A^{(B)}=e_A - W_{boot}$
其中 $W_{boot}$ 是 bootstrap 偏差。

让数据以以下方式表示， $\{[x_i^t \space \space z_i^t]^t, i = 1, ..., n\}$

使 $\overline{F}$ 作为经验分布 (empirical distribution)，

估算误差的流程是:

生成一组新数据 (bootstrap样本)
$Y^b = \{[x_i^t \space \space z_i^t]^t, i = 1, ..., n\}$
使用 $Y^b$ 设计分类器。
在样本上计算表观误差率 $\overline{e}_A$
计算分类器的实际误差率 $\overline{e}_C$ (此时将 $Y$ 视为总体)
计算 $w_b = \overline{e}_A - \overline{e}_C$
重复上述步骤，一共 $B$ 次。
Boostrap 偏差的表观误差率等于 $W_{boot} = E[w_b] = \frac{1}{B} \sum_{b=1}^Bw_b$
Boostrap 偏差校正的表观误差率是 $e_A^{(B)} = e_A - W_{boot}$

可靠性

这是规则估计类别所属的 后验概率 的衡量标准。

以下情况，后验值很重要:

将根据成本做决定。
分类器的结果将用于进一步的分析阶段。

可能的不精确度量 (measure of imprecision) 如下，
将经验样本统计量与其使用分类函数计算的估计值 $\overline{p}(\omega_i|x)$ 进行比较。
在这里插入图片描述
其中若 $x_i \in \omega_j$ , 则 $z_{ji} = 1$ ，否则是0。函数 $\phi_j$ 可以是 $\overline{p}(\omega_j|x_j)^2$

ROC

二分类ROC规则

在 ROC 图像中，TP被画在 Y轴上，而 FP 被画在 X轴上。
每个具有指定类分布和成本矩阵的分类器都表示为 ROC 空间中的一个点 $(F P, T P)$ 。

如果 ROC $X$ 总在 ROC $Y$ 的上方和左侧，则 $X$ 强于 $Y$ ，这意味着 $X$ 分类器在所有可能的错误成本和类分布中始终具有比 $Y$ 更低的预期成本。
比如图中， $A$ 和 $B$ 强于 $D$ 。

在这里插入图片描述
ROC $A$ 和 $B$ 在整个范围内都没有相互支配，我们如何比较它们？
当类分布和错误成本未知时，我们使用 ROC 曲线下的面积 (area under the ROC) 来比较两个分类器。

AUC 定义: AUC (Area under the curve 曲线下面积) 表示随机选择的负例比随机选择的正例具有更小的估计概率属于正类的概率。

设我们拥有两个类别 $\omega_i, i=1, 2$ 以及一个估计属于类别的样本的后验概率 $p(\omega_i|x)$ 的分类器。
设估计为 $\{f_1, ..., f_{n1}; f_i = p(\omega_1|x), x \in \omega_1\}$ 。同样地，使得 $\{g_1, ..., g_{n2}; g_i = p(\omega_2|x), x \in \omega_2\}$ ，其中 $n 1$ 和 $n 2$ 分别是在类别 $\omega_1$ 和 $\omega_2$ 中测试样本的数量。

以升序 (increase order) 排序估计集 ${f_1, ..., f_{n1}, g_1, ..., g_{n2}\}$ 以及使从 $\omega_1$ 的第 $i$ 个模式的排序为 $r_i$ 。

研究者表明随机选择的类 $ω_2$ 模式比随机选择的类 $ω_1$ 模式具有更低的属于类 $ω_1$ 的估计概率的概率估计是:
在这里插入图片描述
$S_0$ 是类 $\omega_1$ 测试模式排序的总和。 $\overline{A}$ 和 AUC 是相等的。

例子，
让下面的表格代表模式估计的后验概率的排序表:
在这里插入图片描述
则其AUC计算如下:

在这里插入图片描述

模型的比较

分类器性能因数据集，样本大小，数据维度而异。

我们需要考虑进行比较的基础: 错误率，可靠性和速度等。

在进行比较的时候，需要排除分析人员的技能，因为通常根据分析人员的专业程度使得需要优化的分类器有不同的性能。

比较的主要问题是: “给定两个分类器和足够的独立训练数据，哪个分类器在新的测试集示例上更准确？”

统计测试 (statistical test)

McNemar’s or Gillick 测试尝试回答: “当不存在差异时，错误检测分类器性能差异的概率是多少？”

对于两个分类器， $A$ 和 $B$ ，我们的定义如下:
$n_{00}=$ $A$ 和 $B$ 都分类错误的样本数
$n_{01}=$ $A$ 分类错误但 $B$ 没出错的样本数
$n_{10}=$ $A$ 没出错但 $B$ 分类错误的样本数
$n_{11}=$ $A$ 和 $B$ 都没有分类错误的样本数

统计 $z$ 通过下式计算:
在这里插入图片描述
其中 $z^2$ 的分布如同以一个自由度的 $X^2$ 。

如果 $\gt 1.96$ , 则可以拒绝分类器具有相同错误的零假设 (null hypothesis) (错误拒绝的概率为 0.05)

ROC 比较

在这个例子，我们比较两个分类器 $A$ 和 $B$ 。同时我们提供错误率以及AUC。模式估算的后验概率排序列表如下表格:
在这里插入图片描述
AUC按照下式计算

$\frac{24}{25}$ 而 $\frac{16}{25}$ ，而对应的表观误差为 $e_A(A)=\frac{2}{10}$ 而 $e_A(B)=\frac{2}{10}$

分类器组合 (Combining Classifiers)

在这里插入图片描述
上图是在单变量数据 (univariate) 上定义的两个线性判别式 (linear discriminants)

多分类器系统 (multiple classifier systems) 的架构

不同的特征空间 (Different feature spaces)

每个组件分类器 (component classifier) 都是针对不同的特征设计的。每个分类器提供后验概率的估计。示例多模态分类 (multi-modal classification)，最佳的组合规则是什么？
在这里插入图片描述
上图表示在不同特征空间上定义的组件分类器。

公共特征空间 (Common feature space)

每个组件分类器都定义在相同的特征空间上，组合器 (combiner) 尝试获得更好的分类器。分类器可以不同或相似 (dissimilar or similar) (不同的训练集或不同的初始化)。给定组合规则的最佳组件分类器是什么？

在这里插入图片描述
上图表示在公共特征空间上定义的组件分类器。

重复测量 (Repeated Measurements)

同一个组件分类器被输入连续的测量值 (successive measurements) 并且决定被组合起来。这也称为时间融合 (temporal fusion) 或多观测融合 (multiple observation fusion)。示例是使用步态 (gait) 连续识别一个人。

在这里插入图片描述
上图表示在公共特征空间中被提供时间分离的测量值 (temporally seperated measurements) 的分类器。

分类器合成方法

设我们拥有一个需要被分类的对象 $Z$ ，还有 $L$ 个分类器，其输出为 $x_1, ..., x_L$

根据贝叶斯最小误差法则， $Z$ 被分配到类 $\omega_j$ 若以下条件满足
$p(\omega_j | x_1, ..., x_L) \gt p(\omega_k|x_1, ..., x_L), k=1, ..., L; k\ne j$
或同等地， $Z$ 被分配到类 $\omega_j$ 若以下条件满足
$p(x_1, ..., x_L | \omega_j)p(\omega_j) \gt p(x_1, ..., x_L|\omega_k)p(\omega_k), k = 1, ..., L; k \ne j$

当然，我们需要类条件联合概率密度 (class-conditiona joint probability densities) 的知识，即 $p(x_1, ..., x_L|\omega_j), j = 1, ..., L$

乘积规则 (Product Rule)

如果我们假设条件独立 (conditional independence)，则分配规则变为乘积规则。

将 $Z$ 分配给类 $\omega_j$ ，若:
在这里插入图片描述
或根据单个分类器的后验概率，将 $Z$ 分配给类 $\omega_j$ ，若:

化简得到:

累加规则 (Sum Rule)

若我们假设在 $\delta_{ki} \ll 1$ 的情况下， $p(\omega_k | x_i) = p(\omega_k) (1 + \delta_{ki})$ ，这种情况下乘积规则中使用的后验概率与先验偏差不大，我们可以推导出累加规则。

将 $Z$ 分配给类 $\omega_j$ ，若:
在这里插入图片描述
化简得到:

多数投票法 (Majority Vote)

通常应用于生成唯一类标签 (unique class labels) 作为输出并且不需要训练的分类器。

将此规则应用于产生后验概率作为输出的分类器需要在输出处应用二元函数以将 $p(\omega_k|x_k)$ 替换为 $\Delta_{ki}$
在这里插入图片描述
模式被分类到组件分类器最常预测 (most often predicted) 的类别，并通过选择具有最大先验概率 (largest prior probability) 的类别来解决平局。