模式识别的评估
-
模式识别系统的错误:
概念:以COVID-19检测为例
-
决策(算法结果):检测结果(阳性或阴性)
-
状态(真实结果):实际情况
-
错误:取决于状态,决策可能会发生两类错误
- 假阳性:第一类错误,误报、虚警
- 假阴性:第二类错误,漏报
混淆矩阵 Confusion Matrix:该表格可以扩展到多类
阳性(状态) 阴性(状态) 阳性(决策) 真阳性 (TP) 假阳性 (FP) 阴性(决策) 假阴性 (FN) 真阴性 (TN) -
-
模式识别系统的性能指标:
- 假阳性率 α \alpha α:所有阴性样本中被错误识别为阳性的样本比例 α = 误 视 为 阳 性 所 有 阴 性 \alpha=\color{red}\dfrac{误视为阳性}{所有阴性} α=所有阴性误视为阳性
- 假阴性率 β \beta β:所有阳性样本中被错误识别为阴性的样本比例 β = 误 视 为 阴 性 所 有 阳 性 \beta=\color{red}\dfrac{误视为阴性}{所有阳性} β=所有阳性误视为阴性
- 特异度: S p = T N N = T N T N + F P = 1 − α = 正 确 视 为 阴 性 所 有 阴 性 S_p=\dfrac{TN}{N}=\dfrac{TN}{TN+FP}=1-\alpha=\color{red}\dfrac{正确视为阴性}{所有阴性} Sp=NTN=TN+FPTN=1−α=所有阴性正确视为阴性
- 灵敏度(召回率/查全率)Recall: S n = T P P = T P T P + F N = 1 − β = 正 确 视 为 阳 性 所 有 阳 性 S_n=\dfrac{TP}{P}=\dfrac{TP}{TP+FN}=1-\beta=\color{red}\dfrac{正确视为阳性}{所有阳性} Sn=PTP=TP+FNTP=1−β=所有阳性正确视为阳性
- 精确率(查准率) Precision: Precision = T P T P + F P \text{Precision}=\dfrac{TP}{TP+FP} Precision=TP+FPTP
-
以人脸识别系统为例:
- 流程:
- 注册 Enrollment
- 识别 Recognition
- 模式:
- 验证 Verification:输入人脸图像和个人ID,在数据集中验证两者是否匹配(无需遍历)
- 识别 Identification:只输入人脸图像,在数据集中寻找正确匹配(需要遍历数据集)
- 流程:
-
验证模式人脸识别系统的评估:构造真样本对和假样本对对系统进行测试
-
真样本对 Genuine pairs:同一个人脸的不同图像
-
假样本对 Imposter pairs:不同人脸的图像
-
验证结果:
- 真匹配 Genuine:相似度高于阈值
- 假匹配 Imposter:相似度未超过阈值
-
两类错误:
真样本对(状态) 假样本对(状态) 真匹配(决策) 真接受 (TP) 假接受 (FP) 假匹配(决策) 假拒绝 (FN) 真拒绝 (TN) - 假接受率(错误接受率)False Acceptance Rate: F A R = F P N = F P F P + T N = 误 视 为 真 样 本 所 有 假 样 本 FAR=\dfrac{FP}{N}=\dfrac{FP}{FP+TN}=\color{red}\dfrac{误视为真样本}{所有假样本} FAR=NFP=FP+TNFP=所有假样本误视为真样本
- 假拒绝率(错误拒绝率)False Rejection Rate: F R R = F N P = F N T P + F N = 误 视 为 假 样 本 所 有 真 样 本 FRR=\dfrac{FN}{P}=\dfrac{FN}{TP+FN}=\color{red}\dfrac{误视为假样本}{所有真样本} FRR=PFN=TP+FNFN=所有真样本误视为假样本
-
相似度分布:
设 T T T 为阈值,则
- 假拒绝 False Rejection: ∫ T 1 T f G d s \int_{T_1}^Tf_G\;ds ∫T1TfGds
- 假接受 False Acceptance: ∫ T T 2 f I d s \int_{T}^{T_2}f_I\;ds ∫TT2fIds
-
FAR、FRR与阈值的关系:
- 等误率(EER) Equal Error Rate: F A R = F R R FAR=FRR FAR=FRR 的点
-
ROC曲线:受试者工作特征曲线(Receiver Operating Characteristic Curve)
-
AUC:(Area Under roc Curve) = ∫ 0 1 f R O C d s =\int_0^1 f_{ROC}\;ds =∫01fROCds
一个重要评价标准
-
真接受率 True Acceptance Rate: T A R = T P P = T P T P + F N = 正 确 视 为 真 样 本 所 有 真 样 本 = 1 − F R R TAR=\dfrac{TP}{P}=\dfrac{TP}{TP+FN}={\color{red}\dfrac{正确视为真样本}{所有真样本}}=1-FRR TAR=PTP=TP+FNTP=所有真样本正确视为真样本=1−FRR
-
EER:交于 R O C ROC ROC 曲线和斜率 − 1 -1 −1 的直线
-
对数坐标系:当错误率集中在比较小的数值范围时,一般会使用对数坐标系。(为使曲线在图中展开)
-
-
DET曲线:(Detection Error Trade-off)
- 必然单调下降
- 必然单调下降
-
-
识别模式人脸识别系统的评估:
-
K K K 位命中:一个测试样本 K K K 位命中是指该测试样本对应的正确注册样本在所有注册样本中按相似度从高到低排列处于第 K K K 个
- K K K 位识别率(Rank-K Identification Rate):所有测试样本中在K位前(含 K K K 位)命中的样本所占的比率(其中Rank-1识别率又称为首选识别率)
-
CMC曲线:累积匹配曲线 Cumulative Match Characteristic
- 横坐标:Rank 位置。纵坐标:匹配比例。
- 一般看排名前十的匹配比例是否高效
-
-
如何为实际应用选择合适的系统:
-
不同应用对FAR和FRR的要求不同:
- 司法应用 Forensic Applications需要较好(较低)的 F A R FAR FAR:减少误报
- 民用应用 Civilian Applications需要较好(较低)的 F R R FRR FRR:减少漏报
实际应用中常用如 TAR @ FAR = 0.1% 的性能指标
-
-
评估协议的设计与实施:
- Ground truth data collection (Benchmark)
- Scale/Size (# subjects, # samples per subject)
- Representativeness
- Isolation of affecting factors
- Dataset division: Training/Validation/Test
- Open-set(开集) vs closed-set(闭集)
- Data balance,Zero-shot、Few-shot
- Selection of performance metrics
- Using Cross-Validation(交叉验证)
- 将所有数据随机分成K份,用其中K-1份训练,剩下的1份测 试,重复K次,统计平均识别率(及其标准差
-
性能指标的等价称呼:
- 真阳性率:
- True Positive Rate (TPR)
- True Acceptance Rate (TAR)
- Genuine Acceptance Rate (GAR)
- True Match Rate (TMR)
- 假阴性率:
- False Negative Rate (FNR)
- False Rejection Rate (FRR)
- False Non-Match Rate (FNMR)
- 真阳性率: