首先还是讲讲TP,FN,FP,TN先:
T
P
—
—
将
正
类
预
测
为
正
类
数
;
TP——将正类预测为正类数;
TP——将正类预测为正类数;
F N — — 将 正 类 预 测 为 负 类 数 ; FN——将正类预测为负类数; FN——将正类预测为负类数;
F P — — 将 负 类 预 测 为 正 类 数 ; FP——将负类预测为正类数; FP——将负类预测为正类数;
T
N
—
—
将
负
类
预
测
为
负
类
数
;
TN——将负类预测为负类数;
TN——将负类预测为负类数;
对于上面的我们可以这样理解,第一个字符表示该结果是预测错误的,第二个字符表示预测成了是正类(positive)还是负类(negative)。
精确率P:
P
=
T
P
T
P
+
F
P
(1)
P = \frac{TP}{TP + FP}\tag{1}
P=TP+FPTP(1)
召回率R:
R
=
T
P
T
P
+
F
N
(2)
R = \frac{TP}{TP + FN}\tag{2}
R=TP+FNTP(2)
F-measure:
F
1
=
2
⋅
p
r
e
c
i
s
i
o
n
⋅
r
e
c
a
l
l
p
r
e
c
i
s
i
o
n
+
r
e
c
a
l
l
(3)
F_1 = 2 · \frac{precision · recall}{precision + recall}\tag{3}
F1=2⋅precision+recallprecision⋅recall(3)
F β = ( 1 + β 2 ) ⋅ p r e c i s i o n ⋅ r e c a l l β 2 ⋅ p r e c i s i o n + r e c a l l F_\beta = (1 + \beta^2) · \frac{precision · recall}{\beta^2 · precision + recall} Fβ=(1+β2)⋅β2⋅precision+recallprecision⋅recall
接下来举几个例子来理解:
一、图形表示理解
区域1指左边的长方形,区域2指右边的长方形,区域3指左边的半圆,区域4指右边的半圆。
区域1和区域2是给定的样本,其中区域1是正样本(真的),区域2是负样本(真的),区域3是前面讲的TP,区域4是FP。
其中,精确率P表示的是:
召回率R表示的是:
二、信息上下文检索
这是一个对于给定的搜索项返回相关文件的目录的任务,假定每个文件都分为两类:相关或不相关。在这个case中,相关文件属于相关类别,
召回率R被定义为被搜索出来中的相关文件文件的数目除以全部相关文件的数目,
精确率P被定义为被搜索出来中的相关文件数目除以被搜索出来的文件数目。
三、分类任务
在分类任务中,
一个类别A的精确率P(我们所关注的那个类别)被定义为被分类器分类为class A(这就是TP + FP)中实际上真正的label是A(TP)的数目除以分类器分类为class A的数目。
一个类别A的召回率R被定义为被分类器分类为class A(这就是TP + FP)中实际上真正的label是A(TP)的数目除以全部集合中真正属于类别A的数目(TP + FN)
注意,P和R是一对不可调和的矛盾, 一个属性(P/R)的上升必然以另一个属性的下降作为代价。可以参考维基百科中脑瘤外科手术的例子 【 1 】 ^{【1】} 【1】。
参考文献:
【1】Precision and recall
【2】统计学习方法-李航