我在学习西瓜书的性能度量部分的内容时,对ROC曲线中的“排序”损失lrank(loss)的定义:
书上这样描述到:“容易看出lrank 对应的是ROC曲线之上的面积,因此有AUC=1-lrank”
当然我觉得这个容易的不是很容易,所以我就写了点我的理解,希望可以帮到大家。
用特例证明一下:
假设有5对正反例:
正例预测结果概率为(0.9, 0.8, 0.5, 0.4, 0.3);
反例预测结果概率为(0.7, 0.6, 0.2, 0.1, 0.01);
那么总排序为(红色为正例概率,黑色为反例概率):
我们可以画出ROC曲线
可以观察到,每个虚线所框出的方格面积为1 /m+ m-,所以反例概率比正例概率大的情况共有32=6种,所以排序损失对应ROC 曲线之上的6个方格的面积 .再考虑另一种情形:依然有5对正反例:正例预测结果概率为(0.9, 0.8, 0.5, 0.4, 0.3); 反例预测结果概率为(0.7, 0.5, 0.2, 0.1, 0.01);那么总排序可以有两种情况为(红色为正例概率,黑色为反例概率):
故 ROC 曲线有相应的两种情况(红色和绿色分别对应情况一与二):
这时,反例概率比正例概率大的情况共有1+22=5种,而反例概率与正例概率相同的情况可认为各占一半,所以得出总的排序损失为(5+1/2)×1 /m+ m-。
这就证明了原公式的含义:
排序损失的定义(西瓜书笔记2)
最新推荐文章于 2024-06-09 21:18:36 发布