【机器学习基础】CH2 - 监督学习(1)概述

最新推荐文章于 2024-07-18 15:39:19 发布

reindexx

最新推荐文章于 2024-07-18 15:39:19 发布

阅读量175

点赞数

分类专栏：机器学习文章标签：机器学习监督学习

本文链接：https://blog.csdn.net/weixin_43831311/article/details/120071545

版权

机器学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

CH2-监督学习-1-概述

- 手写笔记

1. 监督学习

监督学习是机器学习最基础的一个分类之一。
假设一数据集 $\mathcal{D}=\{x_i,y_i\}^N_{i=1}$
1. $x_i$ 为输入
2. $y_i$ 为对应的标签
3. $N$ 为数据集的大小
4. 默认假设每一个 $y_i$ 都由 $x_i$ 决定，且二者符合映射 $f^*$ ，即： $y_i=f^*(x_i)$ 。
5. $f^*$ 又称为 $o r a c l e$ ，能完美确定任何样本的标签。
  1. 可通过假设给定的 $y_i$ 和 $x_i$ 是某个oracle 条件分布 $y_i \sim p^*(\cdot \mid x_i)$ 的一个样本，来考虑噪声和不确定性。
  2. 最常见的模型为 $y_i=f^*(x_i)+\epsilon_i$ ， $\epsilon_i$ 为随机噪声项
  3. 为了简单起见，我们现只考虑确定条件下的监督学习，即没有随机噪声。
6. $y_i$ 的取值：
  1. 当为连续取值，在 $\mathbb{R}$ 中 —— 称其为 回归问题 。
  2. 当为离散值 —— 称其为 分类问题 。
7. 通常情况下，oracle $f^*$ 为未知，除非信息包含在数据集中： $\mathcal{D}=\{x_i,y_i=f^*(x_i)\}^N_{i=1}$ 。
  1. 因此监督学习的任务就是通过数据集 $\mathcal{D}$ 来估计最优 oracle；
  2. “监督”的意思就是，在数据集 $\mathcal{D}$ 中，正确的标签就是作为我们学习过程中由 $f^*$ 提供的监督形式。
假设空间 hypothesis space ： $\mathcal{H}$
1. 取一组可以在电脑上表示的函数
2. 从这一组中挑选一个最接近 $f^*$ 的 $f$ ， $f$ 即为我们学习到的预测模型
3. 而我们要找的这个函数组合，即为假设空间
如何确定 $f$ ？
1. 我们的目的为让 $f$ 足够接近完美分类器/函数 oracle $f^*$ ： $R(f)=\frac{1}{N}\sum^N_{i=1}\mathbb{1}_{f(x_i)\ne f^*(x_i)} (1)$
2. 其中 $\mathbb{1}_c$ 为 indicator function 标识函数，只有当条件 $c$ 为真时，值才为 $1$ 。
3. 等式右边为 $f$ 不能正确匹配它们的标签的比例；即为在训练数据集中 $f$ 的准确度。
4. 用统计语言来说， $R (f)$ 被称为与预测因子 predictor $f$ 有关的风险。
5. 更普遍来说， $f$ 和 $f^*$ 的接近度可以由 损失函数 $L$ 定义： $R(f)=\frac{1}{N}\sum^N_{i=1}L(f(x_i), f^*(x_i))=\frac{1}{N}\sum^N_{i=1}L(f(x_i), y_i) (2)$
  1. 我们希望 $L (y^{'}, y)$ 随着 $y$ 和 $y^{'}$ 的靠近而减小。
  2. 在式 (1) 中， $L(y',y)=1_{y\ne y'}$ ，又称为 zero-one loss，但在现实生活中较少被用到
当确定损失函数后，监督学习问题变成了优化问题 $\underset{f\in\mathcal{H}}{min} R(f) (3)$
1. 当我们解决了这个优化问题，可能的最小值 $\hat{f}\in\mathcal{H}$ 即为我们得到的预测模型。
2. 通过最小化 $R (f)$ 来得到 $\hat{f}$ —— training 训练， $\hat{f}$ 为训练的模型

2. 经验风险最小化 vs 群体风险最小化

Empirical Risk Minimization vs Population Risk Minimization
我们前面提到式(3)好像是将监督学习问题转换到了优化问题，但事实上并非如此（我一个大写的问号），式(3)不是我们真正想要解决的问题。
1. 假设 $\hat{f}$ 使 zero-one loss 最小，我们简单的将训练集中的 $x_i$ 和它对应的标签匹配，那么 $\hat{f}=\begin{cases} y_i & x=x_i \,for\,some\, i=1,2,3,...,N \\ anything & otherwise\end{cases} (4)$
2. 显然， $R(\hat{f})=0$ ，但是 $\hat{f}$ 不是我们想要的；
3. 我们真正想要的是 $\hat{f}$ 能对新数据有良好效果，新数据不在原始训练集中，但与其分布相同。（这个就是经验风险最小化，也就是对现有数据拟合的很好）
群体风险最小化问题 —— 真正想解决的问题： $\underset{f\in\mathcal{H}}{min} R_{pop}(f)=\mathbb{E}_{x\sim\mu}L(f(x),f^*(x)) (5)$ 其中， $\mu$ 为 $\{x_i\}^N_{i=1}$ 的概率分布
经验风险最小化问题： $\underset{f\in\mathcal{H}}{min} R_{emp}(f)=\frac{1}{N}\sum^N_{i=1}L(f(x_i),f^*(x_i)), x_i\overset{i.i.d.}{\sim}\mu (6)$
通常样本的分布 $\mu$ 无法表示，所以会用式(6)代替式(5)。但要注意的是式(5)是我们真正想要的（generalization泛化）。

3. 监督学习的三个过程

Three Paradigms —— 监督学习的范式

Approximation 近似化
1. 问题：我们的假设空间 $\mathcal{H}$ 有多大？
2. 解释为： $\mathcal{H}$ 是否包含很接近oracle $f^*$ 的函数？
3. 属于“近似理论”和“谐波分析”范畴
Optimization 最优化
1. 问题：如何找到或接近一个 $f^*$ 的近似值 $\hat{f}$ ？
2. 为empirical risk minimization problem，问题包括大规模优化算法的设计、收敛性分析和有效实现
Generalization 泛化/普遍化
1. 问题： $\hat{f}$ 可以推广到未知数据吗？
2. 这涉及到数据集的大小与假设空间 $\mathcal{H}$ 的复杂性之间的基本相互作用。
图示：
1. Approximation 研究了在假设空间 $\mathcal{H}$ 中的最佳近似模型 $\tilde{f}$ 与 oracle $f^*$ 的距离；
2. Optimization 研究了通过使用训练集 $\mathcal{D}$ ，并从一些最初的猜测 $f_0$ 开始的到达或接近 $\hat{f}$ 的过程；
3. Generalization 由于数据集是有限的，所以在训练集上的优化得到的不是 $\tilde{f}$ 而是某些 $\hat{f}$ ，因此我们必须量化它们之间的距离，这就产生了泛化问题。而实际上我们考虑的距离为 $\hat{f}$ 和 $f^*$ 之间的。

手写笔记

在这里插入图片描述

reindexx

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习基础】CH2 - 监督学习(1)概述

1. Overview1.1 监督学习监督学习是机器学习最基础的一个分类之一。假设一数据集 D={xi,yi}i=1N\mathcal{D}=\{x_i,y_i\}^N_{i=1}D={xi,yi}i=1Nxix_ixi 为输入yiy_iyi 为对应的标签NNN 为数据集的大小默认假设每一个 yiy_iyi 都由 xix_ixi 决定，且二者符合映射 f∗f^*f∗，即：yi=f∗(xi)y_i=f^*(x_i)yi=f∗(xi)。f∗f^*f∗ 又称为 oracleo
复制链接

扫一扫