周志华《机器学习》（西瓜书）——学习笔记

最新推荐文章于 2024-09-30 18:05:50 发布

ManRock

最新推荐文章于 2024-09-30 18:05:50 发布

阅读量1.4k

点赞数 1

文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/yanghe4405/article/details/114002481

版权

第1章绪论

1.1 引言

因为我们吃过、看过很多西瓜，所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断.类似的，我们从以往的学习经验知道，下足了工夫、弄清了概念、做好了作业，自然会取得好成绩.可以看出，我们能做出有效的预判?是因为我们已经积累了许多经验，而通过对经验的利用?就能对新情况做出有效的决策.
机器学习所研究的主要内容，是关于在计算机上从数据中产生"模型" (model) 的算法，即"学习算法" (learning algorithm). 有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜) .

1.2 基本术语

"示例" (instance) 或"样本" (sample)

例如3个西瓜示例或样本：
(色泽=青绿;根蒂=蜷缩;敲声=浊响)，
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)，
(色泽=浅自;根蒂=硬挺;敲声=清脆)。

"属性" (attribute) 或"特征" (feature)

反映事件或对象在某方面的表现或性质的事项，例如"色泽"“根蒂” “敲声”，

"属性值" (attribute value)

属性上的取值，例如"青绿"、 “乌黑”

"属性空间" (attribute space) 、“样本空间” (sample space)或"输入空间"

属性张成的空间

"特征向量" (feature vector)

例如我们把"色泽" “根蒂”
“敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个"特征向量”
(feature vector).

从数据中学得模型的过程称为 “学习” (learning)或"训练" (training)，这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为 “训练数据” (training data) ，其中每个样本称为一个 “训练样本” (training sample)，训练样本组成的集合称为 “训练集” (training set)。学得模型对应了关于数据的某种潜在的规律，因此亦称"假设" (hypothesis); 这种潜在规律自身，则称为"真相"或"真实" (ground-truth) ，学习过程就是为了找出或逼近真相.本书有时将模型称为"学习器" (learner) ，可看作学习算法在给定数据和参数空间上的实例化.
如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的模型，仅有前面的示例数据显然是不够的。要建立这样的关于"预测" (prediction) 的模型，我们需获得训练样本的 "结果"信息，例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响)，好瓜)" .这里关于示例结果的信息，例如"好瓜"，称为"标记" (label); 拥有了标记信息的示例，则称为"样例" (example).

一般地，预测任务是希望通过对训练集{(X1, Y1) , (X2, Y2) ,…, (Xm, Ym)} 进行学习，建立一个从输入空间X到输出空间y 的映射f: X→Y.

对二分类任务，通常令Y = {-1，+1} 或{0，1};
对多分类任务，IYI >2;
对回归任务， Y= R，R为实数集.

我们还可以对西瓜做"聚类" (clustering) ，即将训练集中的西瓜分成若干组，每组称为A个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分，例如"浅色瓜" "深色瓜”，甚至“本地瓜”、“外地瓜”．这样的学习过程有助于我们了解数据内在的规律，能为更深入地分析数据建立基础。需说明的是，在聚类学习中，“浅色瓜”、 "本地瓜"这样的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息.

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类。
"监督学习" (supervised learning) ：分类和回归。
"无监督学习" (unsupervised learning)：聚类。