机器学习笔记（三）-模型评估与选择后半部分

新手小白勇闯新世界

于 2024-10-08 20:06:13 发布

阅读量183

点赞数 1

文章标签：机器学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43899239/article/details/142767550

版权

1、性能度量

定义：衡量模型泛化能力的评价标准。

结果：不取决于算法和数据，取决于任务需求。

1.1 回归任务常用的性能度量：

均方误差

1.2 分类任务常用的性能度量：

1.2.1 错误率、精度：适用于二分类和多分类任务（关注错判的概率）

1.2.2 查准率、查全率：关注正确的多少被选出，可以构建查准率-查全率曲线，简称P-R曲线，查准率=查全率时的点称为平衡点（BEP，目前有很多更简化的度量方法），当存在多个二分类混淆矩阵时，可以用宏查准率和宏查全率。

ps:混淆矩阵，根据分类情况划分，真正例、假正例、真反例、假反例。

1.2.3 ROC和AUC：

ROC曲线：综合考虑学习器在不同任务下的期望泛化性能好坏，或者说，一般性能的好坏（很多学习器为测试样本产生一个实值或者概率预测，并将其与阈值进行比较，确定正反类，实值或者概率预测决定学习器的泛化能力，据此，可以将样例排序，根据不同任务利用截断点划分样本）

AUC：在两条ROC曲线交叉情况下，利用AUC方法，即比较ROC曲线下的面积

1.2.4 代价敏感错误率和代价曲线：

真实任务存在非均等代价，不同错误造成的后果不同，且希望总体代价最小，代价曲线可以反应学习器的期望总体代价。

2、比较检验

我们想要比较的泛化性能，但是实验评估得到的是在测试集上的性能，两者未必相同，且测试集上的性能跟测试集本身的选择有很大的关系。

2.1 假设检验

2.2 交叉检验t检验

2.3 McNemar检验

2.4 Friedman和Nemenyi检验

2.5 偏差与方差

新手小白勇闯新世界

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。