吃瓜笔记task1

第一章:绪论

第二章:模型评估与选择

留出法:

训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响

交叉验证法

在这里插入图片描述

留一法

训练集与初始数据集相比只少了一个样本

自助法

有放回的采样

性能度量

回归任务常用——均方误差

分类任务中的性能度量

二分类
精度acc

分类正确的样本数占样本总数的比例

注意点:在数据严重不平衡的情况下使用该指标不合理

错误率 = 1 - acc

查准率

选的尽可能对
P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP

查全率

选的尽可能全
P = T P T P + F N P = \frac{TP}{TP+FN} P=TP+FNTP

F1

基于查准率与查全率的调和平均
F 1 = 2 × T P P + R = 2 × T P 样例总数 + T P − T N F_1 = \frac{2\times TP}{P+R} = \frac{2\times TP}{样例总数+TP-TN} F1=P+R2×TP=样例总数+TPTN2×TP

多分类
宏查准、宏查全、宏F1

分成N个二分类后分别计算P、R、F1再求平均

微查准、微查全、微F1

分成N个二分类后对TP、FP、TN、FN均值后计算P、R、F1

ROC与AUC

真正例率(TPR)——ROC横轴

T P R = T P T P + F N TPR = \frac{TP}{TP+FN} TPR=TP+FNTP

假正例率(FPR)——ROC纵轴

F P R = F P T N + F P FPR = \frac{FP}{TN+FP} FPR=TN+FPFP

ROC

ROC 曲线可以直观的反应模型性能,但是难以比较不同模型的差异。

AUC

P R = F P T N + F P PR = \frac{FP}{TN+FP} PR=TN+FPFP

ROC

ROC 曲线可以直观的反应模型性能,但是难以比较不同模型的差异。

AUC

ROC曲线的下方的面积大小,可以实现对模型性能的定量化描述

参考

周志华,机器学习,清华大学出版社,2016
https://www.bilibili.com/video/BV1Mh411e7VU?p=6&spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=ae6a9270751fdffac8724e71e288e0ec
《机器学习公式详解》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值