第一章:绪论
第二章:模型评估与选择
留出法:
训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响
交叉验证法
留一法
训练集与初始数据集相比只少了一个样本
自助法
有放回的采样
性能度量
回归任务常用——均方误差
分类任务中的性能度量
二分类
精度acc
分类正确的样本数占样本总数的比例
注意点:在数据严重不平衡的情况下使用该指标不合理
错误率 = 1 - acc
查准率
选的尽可能对
P
=
T
P
T
P
+
F
P
P = \frac{TP}{TP+FP}
P=TP+FPTP
查全率
选的尽可能全
P
=
T
P
T
P
+
F
N
P = \frac{TP}{TP+FN}
P=TP+FNTP
F1
基于查准率与查全率的调和平均
F
1
=
2
×
T
P
P
+
R
=
2
×
T
P
样例总数
+
T
P
−
T
N
F_1 = \frac{2\times TP}{P+R} = \frac{2\times TP}{样例总数+TP-TN}
F1=P+R2×TP=样例总数+TP−TN2×TP
多分类
宏查准、宏查全、宏F1
分成N个二分类后分别计算P、R、F1再求平均
微查准、微查全、微F1
分成N个二分类后对TP、FP、TN、FN均值后计算P、R、F1
ROC与AUC
真正例率(TPR)——ROC横轴
T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP
假正例率(FPR)——ROC纵轴
F P R = F P T N + F P FPR = \frac{FP}{TN+FP} FPR=TN+FPFP
ROC
ROC 曲线可以直观的反应模型性能,但是难以比较不同模型的差异。
AUC
P R = F P T N + F P PR = \frac{FP}{TN+FP} PR=TN+FPFP
ROC
ROC 曲线可以直观的反应模型性能,但是难以比较不同模型的差异。
AUC
ROC曲线的下方的面积大小,可以实现对模型性能的定量化描述
参考
周志华,机器学习,清华大学出版社,2016
https://www.bilibili.com/video/BV1Mh411e7VU?p=6&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=ae6a9270751fdffac8724e71e288e0ec
《机器学习公式详解》