机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记

糊小烦

于 2022-03-15 19:57:16 发布

阅读量827

点赞数

分类专栏：吃瓜教程文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53840999/article/details/123506692

版权

吃瓜教程专栏收录该内容

1 篇文章 0 订阅

订阅专栏

此博客为个人笔记记录打卡，内容夹杂自己理解。（本人第一次参与Datawhale组队学习，也是第一次系统自学算法，内容理解如有错误，请诸位勘正）。

内容主要基于机器学习西瓜书（周志华主编），Datawhale的南瓜书作为参考。

一.机器学习概况。

学习任务分为监督学习（分类和回归）和无监督学习（聚类）

个人理解分类和聚类的区别在于类别是否是确定的。对于监督学习和无监督学习的概念来说，应该是是否有数据标签，

基本术语

数据集示例（样本）属性（特性）属性值属性空间（样本空间）特征向量

维数训练数据训练样本训练集假设真相学习器标记空间分类聚类回归

“泛化”能力

归纳偏好

对于多种模型，都可以预估一定的效果，“什么样的模型更好？”，

对于大多数模型而言，可以达到的效果大同小异。

但是考虑到实际问题，学习算法自身的归纳偏好与问题是否匹配，往往起到决定性的作用。

（这部分的公式推导善存疑惑）

二.模型评估和选择

1.经验误差（训练误差）和过拟合

训练误差：在训练集上的误差，在不知道新样本的时候，我们能做的就是让经验误差尽可能小。

（这项区别于泛化误差）

过拟合：学习器把训练样本自身的特性当做了潜在样本的一般特性，导致泛化性减低。

（对应的是欠拟合，拟合程度不好，未完全学习训练样本）

过拟合是机器学习面临的关键障碍

2.现实中的评估方法

一般方法是引入一个测试集，同时测试集应该和训练集没有重合。如果我们只用一定的样本，我们可以用以下常见做法：留出法，交叉验证法，自助法。

留出法：数据集D分成两个互斥的数据集，要尽可能保证分布的一致，避免偏差。常见的一般留出2/3-4/5用于训练，剩下用于测试。

交叉验证法：将数据集D划分成k个大小相似的互斥子集，每次取其中一个作为测试集，余下的用于训练集，总共进行k次，取均值。如果刚好每个子集里面只有一个样本，即k=D的样本数m，我们称之为留一法（leave-one-out)，这样留一法训练集之比原本数据集少一个样本，往往结果更加准确。

自助法：在数据集D中取样本，在放回，下次再随机取，取后的称为D'。在样本数较少时，一般效果较好。

性能度量

对于回归任务，一般使用均方误差。

$E\left ( f;D \right )=\frac{1}{m}\sum \left (f \left (x_{i} \right )-y_{i} \right )^{2}$

查准率P和查全率R

查错率和查准率往往是相矛盾的两个量。

P-R曲线图反应了样本全体的P和R

我们利用平衡点（P=R）（BEP)反应学习器的性能，如图A大于B

同时也可以用F1常量

F1的一般形式 $F_{\beta}$

很多时候有许多二分类混淆矩阵

混淆矩阵是一个 2 维方阵，它主要用于评估二分类问题（例如：预测患或未患心脏病、股票涨或跌等这种只有两类情况的问题）的好坏。

我们可以用macro-P，macro-R等，是将所有的PR取平均

还可以先将元素取平均值，再进行取PR，我们叫做micro值。

剩下的章节由于难度过高，等学完后期第三四章再补充。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习吃瓜教程打卡第一天——西瓜书一二章概况笔记

此博客为个人笔记记录打卡，内容夹杂自己理解。（作者第一次参与Datawhale组队学习，也是第一次系统自学算法，内容理解如有错误，请诸位勘正）。内容主要基于机器学习西瓜书（周志华主编），Datawhale的南瓜书作为参考。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。