机器学习分类中的常用指标,这几个指标最大的特点,其实是容易看完就忘。。
英文
TP true positive, 前面的字母代表预测是否正确,后面的字母代表预测的类型,TP是预测正确的正例,预测为1实际也为1
TN true negative预测正确的负例,预测为0实际也为0
FP false positive预测错误,预测为正例,实际为负例,所以是预测错误的负例,预测为1实际为0
FN false negative预测错误的正例,预测为1实际为0
准确率-accuracy
精确率-precision
召回率-recall
F1分数-F1-score
ROC 曲线 Receiver Operating Characteristic curve
ROC曲线下面积-ROC-AUC(area under curve)
PR曲线 precision recall curve
PR曲线下面积-PR-AUC
准确率
准确率和精确率是一对在字面上很容易搞混的名词,准确率 = 预测正确的样本数量/预测总的样本数量。准确率指标在不平衡样本的情况下,基本没有什么实质性说明作用。这很容易理解,假设有100条样本,其中99条正例,1条反例。假设一个模型对所有样本均预测为正例,则这个模型的准确率为99%。然而它并没有泛化作用,因为它无法预测反例。
精确率/召回率
精确率和召回率关系紧密,是一对在含义上很容易混淆的名词。
精确率针对预测结果,所有预测为正的样本的包括:将正例预测为正(TP),负例预测为正(FP)
精确率,即为预测正确的正例(TP)在所有预测为正例的样本中出现的概率,即分类正确的正样本个数占分类器判定为正样本的样本个数的比例: