西瓜书第一、二章笔记

最新推荐文章于 2024-06-25 16:43:52 发布

x@临霖

最新推荐文章于 2024-06-25 16:43:52 发布

阅读量84

点赞数 1

分类专栏：西瓜书文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44419709/article/details/119741125

版权

3 篇文章 0 订阅

订阅专栏

以监督学习来介绍一下机器学习的一些基本概念。

通常，我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择，为此，需使用一个“测试集”（testing set)来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”（testing error)作为泛化误差的近似。

通常我们假设测试样本也是从样本真实分布中独立同分布采样所得。其中测试集应该尽可能与训练集互斥，即测试样尽量不在训练集中出现、未在训练过程中使用过。
下面将会提到3种划分训练集和测试集的方法

留出法（hold-out):直接将训练集D划分为两个互斥的集合，其中一个作为训练集S,另一个作为测试集T,即 $D=S\cup T$ , $\cap T = \varnothing$ 。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。
* 训练集和测试集的划分要尽可能保持数据分布的一致性。
交叉验证法（cross validation)：先将数据集D划分为k个大小相似的互斥子集，即 $D=D_1 \cup D_2 \cup...\cup D_k,D_i \cap D_j = \varnothing(i \neq j)$ 。每个子集都尽可能保持数据分布的一致性，即从D中通过分层抽样得到。然后，每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集；这样就可以获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。通常，k=10。
*假定数据集中D中包含m个样本，k=m时，又称留一法（leave-one-out)。
自助法：给定包含m个样本的数据集D,有放回抽样m次得到数据集 $D^{'}$ , $D^{'}$ 作为训练集， $\setminus D'$ 作为测试集。

关注