《机器学习基础》学习笔记-Foundation of Machine Learning

LJ工程师

已于 2023-04-09 19:48:09 修改

阅读量217

点赞数

分类专栏：机器学习基础文章标签：机器学习学习算法

于 2023-04-08 22:36:31 首次发布

本文链接：https://blog.csdn.net/weixin_44585637/article/details/130005901

版权

机器学习基础专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第一章 - 引言

没什么复杂的，主要是了解下概念。

1.1 主要用来干啥？

1.分类：为每个事项指定类别；
2.回归：预测每个事项的实值
3.排序：根据某种准则将事项进行排序；
4.聚类：将事项划分为同质区域

了解一下就好，具体的任务，可以用到啥任务去搜。

1.2 定义与术语

样本：Items or data
特征：属性的集合，通常用向量的形式表示；
标签：分配给样本的数值或类别；
训练样本：标签+样本；
验证样本：标签+样本->选择参数；
测试样本：用来评估算法性能；
损失函数：衡量预测标签与真实标签之间的差异和损失的函数。Y：所有标签集合，Y’：可能的预测集合，损失函数映射L:Y x Y’ -> $R_+$ . 常见损失函数有0-1损失和平方损失。

0-1损失函数 $\{-1,+1\}\times\{-1,+1\}$ 上的函数： $L(y,y')=1_{y'\neq y}$
$I\times I$ 上的函数： $L(y,y')=(y-y')^2$
假设集：将特征映射到标签集合Y的函数集合。

通过垃圾邮件的学习过程，我们来定义一个简单的深度学习模型过程：
1.给定带标签的样本集合；
2.将数据随机划分为训练样本、验证样本和测试样本；
注意：样本量的大小决定因素：算法自由参数个数、通常训练数据>测试数据；
3.根据先验知识为每个样本关联有用的特征，设计算法，（至关重要）；
4.训练过程为算法自由参数固定不同的取值，算法可以从假设集合中得到不同假设；
5.选择最有假设；
6.利用该假设预测测试样本的样例标签，损失函数测试性能。
注意：损失函数是任务相关的
%%%%算法的一致性%%%%
····· 算法可以是一致的，即对训练数据可以完全无误的划分，但这种算法在测试数据集上可能性能很差。（泛化性）
如下图：
1）左侧采用了复杂的决策平面(可以理解为那条折线)，算法在训练样本上是一致的，但预测可能很差；
2）右侧不一致，但是泛化性好，我们想要的是这种。
在这里插入图片描述

1.3交叉验证

原因：可用的带标签的样本数量很少，导致无法留出验证样本。
方法：n-折交叉验证
过程： $\theta$ 表示自由参数向量。

将m个带标签样本的集合S，随机分为n组，或称n折；
其中，第i折是样本规模为 $m_i$ 的带标签数据；
对于某一折 $i\in[1,n]$ ,学习算法在除了第i折之外的其他数据上进行训练，并生成假设 $h_i$ ， $h_i$ 在第i折上进行性能测试。
基于假设 $h_i$ 的平均误差，称为交叉验证误差；
而对参数值 $\theta$ 的评估，采用， $R_{CV}(\theta)$ 表示，定义为：
$R_{CV}(\theta)=\frac{1}{n} \sum_{i=1} ^n \frac{1}{m_i} \sum_{j=1} ^{m_i}L(h_i(x_{ij}),y_i)$
通常，每折大小相同，而n通常选择5或10。

1.4 学习情境

·监督学习：学习器获取标签样本作为训练数据，并对未见数据进行预测；分类、回归、排序问题是相关联的最常见情景；
·无监督学习：学习器获取无标签样本训练数据，并对未见数据进行预测；聚类和维数约简是无监督学习问题的实例；
·半监督学习：学习器获取训练样本由无标签和标签数据组成，并对未见数据预测；
·直推学习：学习器获取训练样本由无标签和标签数据组成，并对特定测试数据预测；
·在线学习：在线学习需要多轮，每轮训练和测试混在一起的，在每一轮中，学习器获得一个无标签训练数据，对其做出预测之后，获得真实标签，并产生损失。
·强化学习：在强化学习中，训练和测试仍混在一起，为了收集信息，学习器主动地与环境交互，在一些情况下影响环境，并获得每个行动的即时奖赏。
······学习器的目标：是经过一系列的行动以及与环境的交互来最大化获得的奖赏。
······注意：学习器不提供长期的奖赏反馈，也就是说，学习器在每一次反馈时，要在继续探索未知行动以获得更多信息与利用已知信息进行选择，因此，学习器面临一个探索 or 利用的难题。
·主动学习：学习器自适应地或者交互地收集训练样本，通常以询问专家的方式请求新样本的标签。
······主动学习的目标：利用更少的带标签样本达到与标准监督学习可比较的性能；
······应用场景：标签获取成本高的实际应用中。