机器学习（周志华）第一章引言

最新推荐文章于 2024-07-27 23:44:59 发布

丿一丨

最新推荐文章于 2024-07-27 23:44:59 发布

阅读量997

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_60421191/article/details/127039877

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章引言

1.1引言

机器学习的定义：

Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed.

译：机器学习是通过非显著式编程使得计算机获得学习能力的领域

（1）机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

（2）机器学习是对能通过经验自动改进的计算机算法的研究。

（3）机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

显著式编程：

例如对于区分好西瓜与坏西瓜，如果认为告诉计算机，好西瓜的特征为哪几种（例如：颜色：青绿；根蒂：卷缩；敲声：浊响或者其他的类型），坏西瓜为哪几种（例如：颜色：乌黑；根蒂：硬挺；敲声：清脆或者其他的类型），则计算机识别到好西瓜的特征则认定为“是”，识别到坏西瓜的特征则认定为“否”，此为显著式编程。

若仅仅给计算机输入一堆好西瓜与一堆坏西瓜的特征，然后编写程序，让计算机自己区别好西瓜与坏西瓜的区别，计算机也能通过大量的实例，总结出好西瓜是颜色：青绿；根蒂：卷缩；敲声：浊响的，坏西瓜是颜色：乌黑；根蒂：硬挺；敲声：清脆的规律，也能总结出好西瓜以及坏西瓜其他方面特征的区别。即让计算机自己总结出规律的编程方法，叫做非显著式编程。

A computer program is said to learn from experience E with respect to some tast T and some performance measure P if its performance on T as measured by P improved with experience E.

译：一个计算机程序被称为可以学习，是指它能够针对某个任务T和某个性能指标P，从经验E中学习。这种学习的特点是，它在T上的被P所衡量的性能，会随着经验E的增加而提高。

1.2基本术语

数据集(data set)：一组数据记录的集合称为数据集。

“示例”(instance)/”样本”(sample)：数据集中的每条关于一个事件或对象的描述的记录（有时整个数据集也可称为一个样本，此时看作是对样本空间的一个采样）。

“属性(attribute)”/“特征(feature)”：反映事件或对象在某方面的表现或性质的事项，如“色泽”，“根蒂”，“敲声”等。

属性值(attribute value)：属性上的取值，如“青绿”，“乌黑”等。

属性空间(attribute space)/样本空间(sample space)/输入空间：属性张成的空间。

特征向量(feature vector)：某个示例在属性空间中对应的坐标向量。

例如：把“色泽”，“根蒂”，“敲声”作为三个坐标轴，张成了一个用于描述西瓜的三维空间，这样每个西瓜都能在这个空间中找到自己的坐标位置，即对应一个坐标向量，此坐标向量就是特征向量。

定义：一般地，令表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例是d维样本空间中的一个向量，，其中是在第j个属性上的取值，d称为样本的维数(dimensionality)。

学习(learning)/训练(training)：从数据中学得模型的过程。

训练数据(training data)：训练过程中使用的数据。

训练样本(training sample)：训练过程的每个样本。

训练集(training set)：训练样本组成的集合。

假设(hypothesis)：学得模型对应的关于数据的某种潜在的规律。

真相/真实(ground-truth)：潜在规律自身。

学习过程就是为了找出或逼近真相。

学习器(learner)：模型的别称，可看作学习算法在给定数据和参数空间上的实例化。

学习算法通常有参数需设置，使用不同的参数值或训练数据，将产生不同的结果。

标记(label)：关于示例结果的信息，如"好瓜"、“坏瓜”等。

样例(example)：有了标记信息的示例，一般地，用表示第i个样例，其中是示例的标记，是所有标记的集合，也称为"标记空间"(label space)或“输出空间”。

预测结果是离散值的学习任务称为“分类”(classification)，预测结果是连续值的学习任务称为“回归”(regression)。

只涉及两个类别的为二分类任务，其中一个类为正类(positive class)，另一个类为反类(negative class)。涉及多个类别时，称为多分类任务(multi-class classification)。

测试(testing)：学得模型后，使用其进行预测的过程。

测试样本(testing sample)：被预测的样本。

聚类(clustering)：将训练集中的西瓜分成若干组，每组称为一个簇(cluster)，自动形成的簇可能对应一些潜在的划分，如“浅色瓜”，“深色瓜”，“本地瓜”，“外地瓜”。在聚类学习中，“浅色瓜”，“本地瓜”这样的概念我们事先是不知道的。而且学习过程中使用的训练样本通常不具有标记信息。

“泛化”：泛化是指在训练集上的经验性能是否会在未知数据集上表现出差不多的性能。性能同样好，就可以认为是泛化性较好。优化（optimization）是指调节模型以在训练数据上得到最佳性能（即机器学习中的学习），而泛化（generalization）是指训练好的模型在前所未见的数据上的性能好坏

欠拟合：学习器的学习能力不够，不能很好的捕捉到数据特征。

过拟合：只关注经验误差，过度“迎合”训练样本。

监督学习(supervised learning) 代表：分类、回归

监督学习（supervised learning）

从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。监督学习就是最常见的分类（注意和聚类区分）问题，通过已有的训练样本（即已知数据及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优表示某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的。也就具有了对未知数据分类的能力。监督学习的目标往往是让计算机去学习我们已经创建好的分类系统（模型）。

监督学习是训练神经网络和决策树的常见技术。这两种技术高度依赖事先确定的分类系统给出的信息，对于神经网络，分类系统利用信息判断网络的错误，然后不断调整网络参数。对于决策树，分类系统用它来判断哪些属性提供了最多的信息。

常见的有监督学习算法：回归分析和统计分类。最典型的算法是KNN和SVM。

有监督学习最常见的就是：regression&classification

无监督学习(unsupervised learning) 代表：聚类

输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类，clustering）试图使类内差距最小化，类间差距最大化。通俗点将就是实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分类器设计。

非监督学习目标不是告诉计算机怎么做，而是让它（计算机）自己去学习怎样做事情。非监督学习有两种思路。第一种思路是在指导Agent时不为其指定明确分类，而是在成功时，采用某种形式的激励制度。需要注意的是，这类训练通常会置于决策问题的框架里，因为它的目标不是为了产生一个分类系统，而是做出最大回报的决定，这种思路很好的概括了现实世界，agent可以对正确的行为做出激励，而对错误行为做出惩罚。

无监督学习的方法分为两大类：

1.一类为基于概率密度函数估计的直接方法：指设法找到各类别在特征空间的分布参数，再进行分类。

2.另一类是称为基于样本间相似性度量的简洁聚类方法：其原理是设法定出不同类别的核心或初始内核，然后依据样本与核心之间的相似性度量将样本聚集成不同的类别。

利用聚类结果，可以提取数据集中隐藏信息，对未来数据进行分类和预测。应用于数据挖掘，模式识别，图像处理等。PCA和很多deep learning算法都属于无监督学习。

两者的不同点：

1.有监督学习方法必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。而非监督学习没有训练集，只有一组数据，在该组数据集内寻找规律。

2.有监督学习的方法就是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身，预先没有什么标签。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不予以某种预先分类标签对上号为目的。

3.非监督学习方法在寻找数据集中的规律性，这种规律性并不一定要达到划分数据集的目的，也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广譬如分析一堆数据的主分量，或分析数据集有什么特点都可以归于非监督学习方法的范畴。

4.用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法，即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。

通常假设样本空间中全体样本服从一个未知“分布”(distribution)D，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”(independent and identically distributed，简称i.i.d)。一般而言，训练样本越多，我们得到的关于D的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型（也就是说，数据越多越好）。

1.3 假设空间

归纳(induction)：从特殊到一般的泛化(generalization)过程，即从具体的事实归结出一般性规律。

演绎(deduction)：从一般到特殊的特化(specialization)过程，即从基础原理推演出具体情况。

例：基于一组公理和推理规则推导出与之相洽的定理

从样例中学习显然是一个归纳过程，也称为归纳学习(inductive learning)，广义归纳学习相当于从样例中学习。狭义归纳学习要求从训练数据中学得概念(concept)，也称为“概念学习”或“概念形成”。该领域目前研究、应用都较少，因为要学得泛化性嗯那个好且语义明确的概念太困难，现实常用的技术大多是产生“黑箱”模型。

概念学习中最基本的是布尔概念学习。

学习过程是一个在所有假设(hypothesis)组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设。

假设的表示一旦确定，假设空间及其规模大小就确定了。

版本空间(version space)：一个与训练集一致的“假设集合”，即满足好瓜的条件的假设的集合。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”(inductive bias)，简称为“偏好”。任何一个有效的机器学习算法必有其归纳偏好，否则将无法产生确定的学习结果。

奥卡姆剃刀(Occam's razor)：若有多个假设与观察一致，则选最简单的那个。

对于一个学习算法，若它在某些问题上比另一个学习算法好，则必然存在另外一些问题，在那里另一个学习算法比它好。

没有免费午餐定理(No Free Lunch Theorem, NFL定理)：所有学习算法的期望性能都跟随机胡猜差不多。NFL定理的重要前提：所有“问题”出现的机会相同，或所有问题同等重要（但实际情形并非如此）。脱离具体问题，空谈“什么学习算法更好”毫无意义，主要考虑的是面对具体问题哪种学习算法更合适。

NFL这个公式推论太难了，看不懂................................