西瓜书笔记——绪论

释事

已于 2023-03-14 13:01:00 修改

阅读量315

点赞数 1

分类专栏：西瓜书笔记文章标签：机器学习算法 python

于 2023-03-14 12:59:56 首次发布

本文链接：https://blog.csdn.net/weixin_72790221/article/details/129480427

版权

西瓜书笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习——绪论

关于一些概念

数据集（data set）：一组数据（对象）
示例（instance）：对一个对象的所有描述（一个对象的特征）
样本（sample）：对于整体而言的一个概念，取了整体的一个部分称为样本，样本可以是示例也可以是数据集，具体根据所选取的对象和采样而定
属性（attribute），特征（feature）：对对象的描述单位
属性值（attribute value）：属性的取值（属性是什么）
属性空间（attribute space）样本空间（sample space）：各个属性向量张成的空间
特征向量（feature vector）：每一个示例在样本空间上所构成的向量
维度（dimensionality）：对于一个对象而言属性的数量
学习（learning）训练（training）：从数据中通过执行某个算法得到模型的过程
训练数据，训练样本（training sample），训练集（training set）：在训练的时候使用的数据称为训练数据，其中的每个样本称为训练样本，训练样本的集合称之为训练集。
测试（test），测试样本，测试集
假设（hypothesis）：算法所对应的潜在规律
真实（ground-truth）：潜在假设自身被称为真相，训练就是逼近这个真相的过程。
学习器（learner）：模型，可看作学习算法在给定数据和参数空间的实例化

实例化是将一个抽象的概念类，具体到该类实物的过程

监督学习（supervised learning）：有标记信息，根据标记信息进行的学习
- label:训练样本的结果信息
- 样例(example)：有了标记的示例
- 标记空间（example space）：所以示例xi的标记y
无监督学习（unsupervised learning）：在没有标签的前提下进行的学习
- 聚类（clustering）：没有预测结果信息的条件下将样本进行分组
- 簇（cluster）：每组成为一个簇
预测(predict)
- 分类（classification）：离散值预测
- 回归（regression）：连续值预测

泛化（generalization）：
英文上是普遍性的意思，所以泛化能力用人话来说就是这个模型对新旧样本都很好用，具有普遍性。
独立同分布（independent and identically distributed）：
通常训练集是样本空间一个很小的部分，我们仍希望它能反映样本空间的特性
通常需要假设样本空间中的全体样本满足一个未知的分布
（即这个全体样本是特殊的，有规律的，可以通过机器学习的方法训练出结果的。）
独立同分布的意思是，每个样本都是独立的在这个分布中采集（这样具有普遍性）
一般满足独立同分布：样本量越大，泛化能力越强

假设空间

归纳（induction）：对应泛化，事实总结规律
演绎（deduction）：对应特化，原理推导结论

归纳学习

广义：相当于从样例中学习，得到一个泛化模型
狭义：概念学习，从学习中可以习得概念
概念：对样例有区分的能力，在中文中就可以说具备了这个方面的概念，区分的各个类别都有自己具备的某些特征。
参照网上的说法，概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。

假设空间：假设可以认为是待发现的规则，一个好的假设了符合训练集大部分的样例。假设空间是情况所构成的空间。其规模大小就是在这个假设内所以可能出现的情况，可能会包括全集或空集的情况。
版本空间（version space）：和训练集一致的假设集合，很多假设都可以和训练集一致。

归纳偏好

当版本空间的假设面临新样本时得到了不同的结果，这个时候要怎么进行输出，就涉及到了归纳偏好的概念

归纳偏好（inductive bias）：对机器学习的矛盾进行规避的一种设定，西瓜书中举了特殊和一般两个例子。以特殊作为偏好可以使得算法更倾向于使用更多的条件。一般作为偏好更倾向于算法的适用程度。
机器学习中的回归问题可以通过选择偏好来决定拟合程度和平滑程度
奥卡母剃刀原则：当有多个假设与观察一致，则选择那个简单的假设。
算法的归纳偏好需要和实际问题匹配。较好的泛化能力所代偿的是对特殊样本的关注度，所有需要综合考虑这些问题。
没有免费午餐原则：（证明理解另文出）