解读西瓜书—chap1

冰冰ing

于 2021-07-12 11:34:14 发布

阅读量140

点赞数

分类专栏：西瓜书

本文链接：https://blog.csdn.net/weixin_55858423/article/details/118668612

版权

西瓜书专栏收录该内容

7 篇文章 2 订阅

订阅专栏

本文介绍了机器学习的基本术语，包括学习过程、训练集、标签、测试和泛化能力。机器学习通过归纳偏好选择最佳模型，这通常涉及选择最简单模型的原则。归纳偏好对模型性能至关重要，需要匹配实际问题才能取得良好效果。

摘要由CSDN通过智能技术生成

1.1 基本术语

机器学习目标：使学得的模型能较好的适应于“新样本”。

学习/训练	从数据中学习得到模型的过程
训练集	训练过程中用到的样本
标记/标签	样本集的表现/输出
测试	学习得到模型后，利用样本对其进行测试的过程，其中所用到的样本为测试集。
泛化	学得模型适用于新样本的能力。

机器学习本质上是一种归纳算法，其在学习过程中对某种类型假设的偏好，称为“归纳偏好”，即“偏好”。打个比方，在对训练集进行训练后，得到几种训练规则，那么最终选择哪一个作为模型算法呢？这就是机器学习的偏好了，一般是基于该领域知识而产生的偏好，可以看做对人们生活经验中影响较大的参数赋予较大的权重。

那么怎么引导算法建立正确的偏好呢？——“奥卡斯剃刀”，即在多数假设中，选择最简单最平滑的那一条曲线。（但对于分类问题难以选择出哪一条是简单的，因此还需要借助其他机制来选择）

事实上，归纳偏好对应学习算法本身所做出的关于“什么样的模型更好”的假设，在实际问题中，归纳偏好是否和问题本身相匹配，多数时候决定了该算法是否能取得较好的性能。