第1章 绪论
1.1 引言
- 因为我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断.类似的,我们从以往的学习经验知道,下足了工夫、弄清了概念、做好了作业,自然会取得好成绩.可以看出,我们能做出有效的预判?是因为我们已经积累了许多经验,而通过对经验的利用?就能对新情况做出有效的决策.
- 机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型" (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) .
1.2 基本术语
"示例" (instance) 或"样本" (sample)
例如3个西瓜示例或样本:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),
(色泽=浅自;根蒂=硬挺;敲声=清脆)。
"属性" (attribute) 或"特征" (feature)
- 反映事件或对象在某方面的表现或性质的事项,例如"色泽"“根蒂” “敲声”,
"属性值" (attribute value)
- 属性上的取值,例如"青绿"、 “乌黑”
"属性空间" (attribute space) 、“样本空间” (sample space)或"输入空间"
- 属性张成的空间
"特征向量" (feature vector)
例如我们把"色泽" “根蒂”
“敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个"特征向量”
(feature vector).
- 从数据中学得模型的过程称为 “学习” (learning)或"训练" (training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为 “训练数据” (training data) ,其中每个样本称为一个 “训练样本” (training sample),训练样本组成的集合称为 “训练集” (training set)。 学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis); 这种潜在规律自身,则称为"真相"或"真实" (ground-truth) ,学习过程就是为了找出或逼近真相.本书有时将模型称为"学习器" (learner) ,可看作学习算法在给定数据和参数空间上的实例化.
- 如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的模型,仅有前面的示例数据显然是不够的。要建立这样的关于"预测" (prediction) 的模型,我们需获得训练样本的 "结果"信息,例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)" .这里关于示例结果的信息,例如"好瓜",称为"标记" (label); 拥有了标记信息的示例,则称为"样例" (example).
一般地,预测任务是希望通过对训练集{(X1, Y1) , (X2, Y2) ,…, (Xm, Ym)} 进行学习,建立一个从输入空间X到输出空间y 的映射f: X→Y.
对二分类任务,通常令Y = {-1,+1} 或{0,1};
对多分类任务,IYI >2;
对回归任务, Y= R,R为实数集.
我们还可以对西瓜做"聚类" (clustering) ,即将训练集中的西瓜分成若干组,每组称为A个"簇" (cluster); 这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜" "深色瓜”,甚至“本地瓜”、“外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。需说明的是,在聚类学习中,“浅色瓜”、 "本地瓜"这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息.
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类。
"监督学习" (supervised learning) :分类和回归。
"无监督学习" (unsupervised learning):聚类。
需注意的是,机器学习的目标是使学得的模型能很好地适用于"新样本",而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为 “泛化” (generalization) 能力.
1.3 假设空间
**归纳(induction)与演绎(deduction)**是科学推理的两大基本手段。
- 归纳是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律;
- 演绎则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况。
例如,在数学公理系镜中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而"从样例中学习"显然是一个归纳的过程。因此亦称"归纳学习" (inductive learning).