在wiki上查了一些定义,现在整理一下
首先需要知道一些英文缩写:
P : positive (比如机器学习中的正样本)
N: negative(比如机器学习中的负样本)
TP: true positive(字面意思是真的正样本,意思就是:把正样本归类正样本,就是没分错的该正样本)
TN: true negative(字面意思是真的负样本,意思就是:把负样本归类到负样本,就是没分错该负样本)
FP:false positve(字面意思是错误的正样本,意思就是:把负样本分到正样本那一类去了,就是分错了该负样本)
FN:false negative(字面意思是错误的负样本,意思就是:把正样本分成了负样本,错分了该正样本)
括号后面是我结合具体的分类问题举的例子,方便理解。
接下来就是precision,recall,accuracy的定义了:precision = TP/(TP+FP) ,比如在二分类问题中,我正负样本一共有20个,其中8个正样本,12个负样本,我现在将这20个样本送到分类器中分类,其中识别正确的正样本有5(TP)个,把剩余的3个正样本识别成了负样本(FN),把负样本识别正样本的个数3(FP),正确识别9个负样本(TN),那么这个结果的precision=5/(5+3) ->62.5%.
accuracy = (TP+TN)/(TP+TN+FP+FN) ,对应上面的例子为,accuracy = (5+9)/(5+9+3+3) -> 70%
recall = TP/(TP+FN) ,对应上面的例子为:recall = 5/(5+3) -> 62.5%
总结:
precision:分类器挑选出来的正样本(上个例子总分类器认为有8个是正样本,其中5个是真的正样本,还有3个是把负样本分类为了正样本)究竟有多少是真的正样本。
recall:在全部(8)真正的正样本李曼分类器挑选对了多少个(5)。