机器学习西瓜书笔记

原创已于 2024-03-07 12:50:50 修改 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #笔记 #人工智能

于 2024-03-04 14:45:57 首次发布

第二章模型评估与选择

1.精度=1-错误率
2.训练集上的误差为‘训练误差’或‘经验误差’，新样本上的误差为‘泛化误差’
3.过拟合是机器学习面临的关键障碍，欠拟合可通过决策树学习中拓展分支，在神经网络学习中增加训练轮数
4.过拟合无法彻底避免

2.2评估方法

2.2.1留出法

单次留出法不够稳定可靠，一般要采用若干次随机划分、重复进行试验评估取平均值作为留出法的评估结果，常见做法是将大约2/3～4/5的样本用作训练

2.2.2交叉验证法

下面是K折交叉验证的基本步骤：
将数据集分成K个大小相似的子集，通常称为折（fold）。
选择一个折作为测试集，其余K-1个折作为训练集。
使用训练集训练模型，并在测试集上进行评估。
记录评估指标（如准确率、精确率、召回率等）。
重复步骤2至步骤4，直到每个折都被用作了一次测试集。
对所有的评估指标进行平均，得到最终的评估结果。

留一法是其最简单的形式之一。在留一法中，将数据集分成大小相等的两部分，一部分作为训练集，另一部分作为测试集。具体步骤如下：
将数据集中的样本按顺序编号，编号从1到N。
对于每一个编号i，将第i个样本作为测试集，剩余的样本作为训练集。
使用训练集训练模型，并在测试集上进行评估，记录评估指标（如准确率、精确率、召回率等）。
重复步骤2和步骤3，直到每个样本都被用作了一次测试集。
对所有的评估指标进行平均，得到最终的评估结果。
留一法的优点是评估结果准确，因为每个样本都会被用作测试集。然而，留一法的缺点是计算成本较高，特别是对于大型数据集，因为需要训练N个模型，其中N是样本的数量。

总的来说，留一法在数据量较小的情况下是一个可行的评估方法，但在大型数据集上可能会变得不切实际。

2.2.3自助法

对集成学习有很大好处，但会引入估计偏差。

2.3性能度量

2.3.2 查准率、查全率

查准率和查全率是一对矛盾的度量，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。通常只有在一些简单任务中，才可能使查全率和查准率都很高。![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/506aaa7fbc1549ddbbf53f4ac6723a60.png#pic_center

查准率P为真正例在真正例和假正例（判断为真，但实际为假）的总和的比例
查全率R为真正例在真正例和假反例（判断为假，但实际为真）的总和的比例在这里插入图片描述
若一个学习器的P-R曲线被另一个学习器的曲线完全‘包住’，则可断言后者的性能优于前者，如2.3图，A性能高于C，但是A、B两者无法比较
平衡点（Breaking-Even Point，简称BEP），是查全率和查准率相同的取值，即为途中y=x的曲线，基于BEP，可认为学习器A优于B

F1和Fᵦ

在这里插入图片描述

n个二分类混淆矩阵

西瓜书P32页

欢迎使用Markdown编辑器

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash