人工智能学习——第一章 机器学习基础——1-1 机器学习:绪论

第1关:机器学习的主要任务

学习目标

根据本节课所学知识完成本关所设置的选择题。

相关知识

为了完成本关任务,你需要掌握:

  1. 机器学习主要任务,
  2. 分类,
  3. 回归,
  4. 聚类。

机器学习主要任务

分类机器学习的一项主要任务,主要是将实例数据划分到合适的分类中。

机器学习另外一项任务是回归,主要是预测数值型的数据,比如通过数据值拟合曲线等。

分类和回归属于监督学习,这类算法必须知道预测什么,即目标变量的分类信息。与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为“聚类”

接下来,我们来看看,什么是分类、回归与聚类。

分类

 

这是一系列关于西瓜的数据,这里的每个实体,或者每一行被称为一个样本或数据点,而每一列(用来描述这些实体的属性)则被称为特征。假如说,我们现在想通过色泽、根蒂、敲声这几个特征来区分一个西瓜是好瓜与不是好瓜,这就是一个分类问题。分类问题的目标是预测类别标签。在这个例子中,“是”与“否”则是预测类别的两个不同的标签。分类问题有时可分为二分类和多分类,西瓜的例子则是一个二分类问题,多分类指的是数据不止两个类别,它有多个类别。

回归

 

回归任务的目标是预测一个连续值,编程术语叫作浮点数。假如说我们现在手里得到的是如下数据:

我们要通过色泽、根蒂、敲声来预测西瓜的价格,这就是一个回归问题。区分分类任务和回归任务有一个简单方法,就是看输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题,比如说价格。

聚类

 

聚类属于无监督学习,它是指我们的数据只有输入,没有输出,并需要从这些数据中提取知识。聚类算法将数据划分成不同的组,每组包含相似的样本。比如说:

 

我们现在手里的数据只有色泽、根蒂、敲声这几个特征,我们通过这三个特征,把性状相似的西瓜分到一个组,这就是一个聚类问题。聚类问题与分类问题的本质区别就是有没有标签。

测试说明

根据本关所学习到的知识,完成所有选择题。

第2关:机器学习的常见术语

 

学习目标

根据本节课所学知识完成本关所设置的选择题。

相关知识

为了完成本关任务,你需要掌握:

  1. 机器学习常见术语;
  2. 假设空间;
  3. 归纳偏好。

机器学习常见术语

我们已经知道了,机器学习是利用数据,从数据中归纳出规律,并用来对新事物进行预测。所以,机器学习首先要有数据,假设我们收集了一份关于西瓜的数据:

 

  • 我们把数据中的每一行称为一个示例或样本

  • 反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声,称为属性或特征;

  • 属性上的取值,例如:青绿、乌黑。称为属性值或特征值;

  • 我们把一个示例(样本)称为一个特征向量。

一般地,令 D={x_1,x_2,..,x_mx1​,x2​,..,xm​} 表示包含 m 个示例的数据集,每个示例由 d 个属性描述(例如上面的西瓜数据使用了三个属性),则每个示例:

x_i=(x_{i1};x_{i2}; ...;x_{id})

是 d 维样本空间X中的一个向量,x_ixi​∈X,其中x{_ij}xi​j是x_ixi​在第 j 个属性上的取值。d 称为样本x_ixi​的维数。

从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”,学习过程就是为了找出或逼近真相。

假设空间

假设空间在已知属性和属性可能取值的情况下,对所有可能满足目标的情况的一种毫无遗漏的假设集合。

接下来举个例子来说明什么是假设空间。在选择配偶时我们可能有以下几个指标:

  • 体型 : 肥胖,匀称,过瘦;
  • 财富 : 富有,一般,贫穷;
  • 性子 : 急,不急不慢,慢。

现在我们要构建一个合适的假设空间来构建一个择偶观:

对于体型来说有肥胖均匀过瘦 3 种,也有可能价值观里认为这个无关紧要,所以有4种可能。

对于财富来说有富有一般以及贫穷 3 种可能,也有可能价值观里认为这个无关紧要,所以有4种可能。

对于性子来说有不急不慢以及 3 种可能,也有可能价值观里认为这个无关紧要,所以有4种可能。

最后再加上一个极端的情况,也就是体型财富以及性子这 3 个评判准则选出来的都不是想要的配偶。

所以假设空间的规模大小为4*4*4+1=65

归纳偏好

归纳偏好是机器学习算法在学习过程中对某种类型假设的偏好。说白了就是“什么样的模型更好”这一问题。

以韦小宝的 7 个老婆为例,这 7 个老婆均满足小宝的要求,因此构成了大小为 7 的假设空间。(实际上,假设空间的大小一定是无穷大的。为了说明问题,我们暂时以 7 为大小)。那么,如何衡量哪一个假设空间中哪一个假设函数(老婆)最好呢?如果以温柔体贴为偏好来选,当然是小双;如果以小宝的迷恋为偏好来讲,假设函数就是阿珂。说白了,归纳偏好就是一个用于挑选假设函数的基准。

此归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。

而在具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

测试说明

根据本关所学习到的知识,完成所有选择题。

第3关:什么是机器学习

学习目标

根据本节课所学知识完成本关所设置的选择题。

相关知识

为了完成本关任务,你需要掌握:

  1. 什么是机器学习。

什么是机器学习

相信大家一定都非常喜欢吃西瓜,有经验的同学都知道如果一个西瓜色泽青绿、根蒂蜷缩、敲声浊响,那么就能判断这是一个正熟的好瓜。那么,为什么通过色泽、根蒂、敲声,这几个特征就能帮我们做出相当好的判断呢?因为我们吃过,看过很多好瓜,累积了这方面很多的经验,而通过对经验的利用,就能对新的情况做出有效的决策。

上面对经验的利用是靠我们人类自身来完成的,计算机能帮忙吗?

机器学习正是这么一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生的“模型”的算法,即“学习算法”有了学习算法,我们就把经验数据提供给它,它就能基于这些数据产生模型,在面对新的情况时,模型会给我们提供相应的判断。

 

测试说明

根据本关所学习到的知识,完成所有选择题。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值