【读书笔记】周志华 机器学习 第一章 绪论

本文介绍了机器学习的基本术语,包括特征、输入空间、输出空间和样例。讨论了假设空间,即所有可能的输入到输出映射的集合,并提出了归纳偏好,用于在多个符合数据的映射中做选择。奥卡姆剃刀原则常被用作选择模型的偏好,但没有免费午餐定理表明不同偏好下的算法在总误差上并无优劣之分,强调了具体问题具体分析的重要性。
摘要由CSDN通过智能技术生成

基本术语

编号 x 1 x_1 x1 x 2 x_2 x2 y y y
1110
2101
3011
4000

以上表数据集为例,一般地,
x 1 x_1 x1, x 2 x_2 x2特征;特征张成地空间为输入空间或者特征空间;称特征空间中的一个点 x 1 = ( 1 , 1 ) {\boldsymbol x_1} = (1, 1) x1=(1,1)示例或者输入向量或者特征向量
y y y标记,有标记的示例称为样例,用 ( x i , y i ) ({\boldsymbol x_i}, y_i) (xi,yi)表示第 i i i个样例,所有标记的集合称为标记空间或者输出空间

假设空间

一般地,我们的任务是通过对数据的学习,得到输入空间到输出空间的映射;所有可能地映射构成的集合称为假设空间

归纳偏好

对于一个机器学习算法,通过对已知数据地学习,可能得到多个符合已知数据的映射,这时算法需要有一个偏好来确定一个模型,否则在分析新数据时会产生错误。比如说通过已知数据得到两个映射 f 1 f_1 f1 f 2 f_2 f2,当分析新数据 x i {\boldsymbol x_i} xi时, f 1 ( x i ) ! = f 2 ( x i ) f_1({\boldsymbol x_i}) != f_2({\boldsymbol x_i}) f1(xi)!=f2(xi) ,相互矛盾,所以需要选择其中一个映射。
一般使用奥卡姆剃刀原则作为偏好,即若有多个假设和观察一致,则选最简单的那个。奥卡姆剃刀原则并非唯一可行的偏好。
根据某个偏好得到的模型在某些情况下表现更好,那么一定会在别的某个情况下表现更坏。这就是没有免费午餐定理。证明如下:
没有免费午餐定理证明
由上述证明可以得到,带有不同偏好的算法,总误差和算法无关。算法A和算法B的总误差是一样的。算法A在某个情况下表现好误差小的时候,必定会在其他某个情况下表现差误差大。这并不是说算法都一样没有好坏之分。因为我们要求的就是具体某种情况下的最优模型,这个模型在别的情况下好不好我们并不关心。这个定理告诉我们具体问题具体分析,没有万能钥匙。

参考文献

周志华 机器学习 清华大学出版社
谢文睿、秦州 机器学习公式详解 人民邮电出版社

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 什么是泛化能力?泛化能力和过拟合之间有什么关系? 泛化能力是指模型在新的、未见过的数据上的表现能力。模型的泛化能力与其对训练数据的拟合程度有关,通常来说,过拟合的模型泛化能力较差。 2. 什么是交叉验证?交叉验证的作用是什么? 交叉验证是一种通过将数据集分成若干个子集来进行模型评估的方法。具体地,将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。交叉验证的作用是提高模型评估的可靠性和泛化能力。 3. 留出法、k折交叉验证和留一法的区别是什么?它们各自适用于什么情况? 留出法是将数据集分成两部分,一部分作为训练集,另一部分作为测试集。留出法适用于数据集较大的情况。 k折交叉验证是将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。k折交叉验证适用于数据集较小的情况。 留一法是k折交叉验证的一种特殊情况,即将数据集分成n个子集,每个子集都作为测试集,其余子集作为训练集,重复n次。留一法适用于数据集较小且样本数较少的情况。 4. 为什么要对数据进行预处理?数据预处理的方法有哪些? 数据预处理可以提高模型的表现,并且可以减少过拟合的风险。数据预处理的方法包括:标准化、归一化、缺失值填充、特征选择、特征降维等。 5. 什么是特征选择?特征选择的方法有哪些? 特征选择是指从所有特征中选择出对模型预测结果有重要贡献的特征。特征选择的方法包括:过滤式方法、包裹式方法和嵌入式方法。其中,过滤式方法是基于特征间的关系进行特征选择,包裹式方法是基于模型的性能进行特征选择,嵌入式方法是将特征选择嵌入到模型训练中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值