五月份组队学习【吃瓜教程】Task01打卡笔记

最新推荐文章于 2024-04-25 20:55:27 发布

miskirito

最新推荐文章于 2024-04-25 20:55:27 发布

阅读量279

点赞数 1

分类专栏：自主学习 Datawhale组队学习笔记文章标签：学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_57171836/article/details/124809781

版权

自主学习同时被 2 个专栏收录

29 篇文章 2 订阅

订阅专栏

Datawhale组队学习笔记

27 篇文章 0 订阅

订阅专栏

本次吃瓜教程是Datawhale组织的组队学习。
学习资料由开源学习组织Datawhale提供。
本次学习针对的对象：
有高数、线代、概率论与数理统计基础的同学
内容说明：周志华老师的“西瓜书”是机器学习经典入门教材，值得反复阅读，配合“南瓜书”从本科数学基础的视角进行讲解，一起打好基础！
学习周期：18天

Task01任务：概览西瓜书+南瓜书第1、2章
视频教程链接： https://www.bilibili.com/video/BV1Mh411e7VU

第一章

绪论

第二章

模型评估与选择

2.3性能度量

性能度量是用来衡量模型泛化能力的评价标准。（泛化能力:机器学习算法对新鲜样本的适应能力）本次Task的打卡重点在理解不同任务的学习器性能度量的方式。
在回归任务里最常用的性能度量是“均方误差” 请添加图片描述
其中m是样本数量，yi是实例xi的真实标记，我们要评估学习器f的性能，就要比较学习器的预测结果与真实标记y进行比较。

2.3.1错误率与精度

在分类任务中最常用的两种性能度量是错误率与精度（错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。）
下面是错误率E的定义与精度acc的定义：

错误率E
在这里插入图片描述
精度acc

2.3.2查准率、查全率与F1

书中用Web检索的举例非常清楚的解释了查准率与查全率之间的矛盾关系，我们通过二分类问题可以有以下矩阵：
在这里插入图片描述
对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（falsenegative）四种情形，令TP、FP、TN、FN分别表示其对应的样例数，则显然有TP+FP+TN+FN=样例总数。因此我们对于查准率P与查全率R有了以下定义：
在这里插入图片描述
一般来说查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。以查准率喂纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线”，显示该曲线的图称为“P-R图”。通过对PR图的曲线分析我们可以得到不同学习器间的性能高低。在这里插入图片描述
图中的平衡点（BEP）是这样一个度量，它是“查准率=查全率”时的取值，例如图中学习器C的BEP是0.64，而基于BEP的比较，可认为学习器A优于B.

2.3.3ROC与AOC

miskirito

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
五月份组队学习【吃瓜教程】Task01打卡笔记

本次吃瓜教程是Datawhale组织的组队学习。学习资料由开源学习组织Datawhale提供。本次学习针对的对象：有高数、线代、概率论与数理统计基础的同学内容说明：周志华老师的“西瓜书”是机器学习经典入门教材，值得反复阅读，配合“南瓜书”从本科数学基础的视角进行讲解，一起打好基础！学习周期：18天Task01任务：概览西瓜书+南瓜书第1、2章视频教程链接： https://www.bilibili.com/video/BV1Mh411e7VUTask01学习内容第一章绪论第二章模型评估.
复制链接

扫一扫

专栏目录