ROC曲线
ROC全称“受试者工作特征”(Receiver Operation Characteristic)曲线,其与P-R曲线相似(P-R曲线是查准率和查全率曲线)。
P
=
T
P
T
P
+
F
P
R
=
T
P
T
P
+
F
N
\begin{aligned}&P=\frac{T P}{T P+F P}\\&R=\frac{T P}{T P+F N}\end{aligned}
P=TP+FPTPR=TP+FNTP
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_{\beta}=\frac{\left(1+\beta^{2}\right) \times P \times R}{\left(\beta^{2} \times P\right)+R} Fβ=(β2×P)+R(1+β2)×P×R
当 β \beta β=1时,就为F-1score。
定义“真正例率”(True Positive Rate, 简称TPR), “假正例率”(True negative Rate, 简称TNR),
T
P
R
=
T
P
T
P
+
F
N
F
P
R
=
F
P
T
N
+
F
P
\begin{aligned} &\mathrm{TPR}=\frac{T P}{T P+F N}\\ &\mathrm{FPR}=\frac{F P}{T N+F P} \end{aligned}
TPR=TP+FNTPFPR=TN+FPFP
如上图(a)所示横坐标是假正例率,纵坐标是真正例率。如果实际实验无法得到(a)所示的光滑的ROC曲线,因此可以通过离散的数据得到图(b)所示的离散折线ROC曲线图。
ROC曲线作用,用来比较学习器性能,与P-R曲线类似,如果一个学习器 a 的曲线完全包住另一个学习器 b 的曲线,则可以证明,学习器 a 的性能优于学习器 b 的性能。如果两条曲线交叉,则无法证明两者学习器的优略,因此可以通过比较曲线下方的面积,成为AUC(Area Under ROC Cureve),如图所示。
为什么用比较面积大小就可以比较两个学习器性能??