【学习笔记】机器学习:第一章:绪论

1.2 基本术语

这里有一批关于西瓜的数据:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……

  • “=”:取值为;
  • 数据集:这组记录的集合;
  • 示例/样本:每条关于一个事件或对象的描述记录;
  • 属性/特征:反映事件或对象在某方面的表现或性质的事项,如“色泽”、“根蒂”……
  • 属性值:属性上的取值,如“青绿”……
  • 属性空间/样本空间/输入空间:属性张成的空间;如把“色泽”、“根蒂”和“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间;
  • 特征向量:一个事件或对象,即示例,因为空间中每个点对应一个坐标向量;
  • 标记:关于示例结果的信息,如“好瓜”;
  • 样例:拥有标记信息的示例,如 ((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜
  • 标记空间/输出空间:所有标记的集合。

如果预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为“分类”;如果预测的是连续值,例如西瓜成熟度0.95、0.37…,此类学习任务称为“回归”。对于只涉及两个类别的“二分类”任务,通常称其中一个类为“正类”,另一个为“反类”或“负类”;涉及多个类别时,则称为“多分类”任务。

还可以对西瓜做聚类任务,即将训练集中的西瓜分成若干组,每组称为一个

根据训练数据是否拥有标记信息,学习任务可以分为“监督学习”和“无监督学习”两类。分类和回归是前者的代表,聚类则是后者的代表。

泛化能力:学得模型适用于新模型的能力。

通常假设样本空间的全体样本服从一个未知分布,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”。

1.3 假设空间

归纳演绎是科学推理的两大手段:

  • 归纳:是从特殊到一般的泛化过程,从具体的事实归结出的一般性规律;
  • 演绎:是从一般到特殊的特化过程,从基础原理推演出具体状况。

归纳学习有广义和狭义的区分;广义的归纳学习相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,也称为“概念学习”或“概念形成”。
概念学习中最基础的是“布尔概念学习”,即对“是”,“不是”这样的可表示为0/1布尔值的目标概念的学习。

学习过程就是在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的瓜判断正确的假设。
可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称之为“版本空间”。
在这里插入图片描述
在这里插入图片描述
假设空间和版本空间的计算

1.4 归纳偏好

问题:现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却会产生不同的输出。

如,对(色泽=青绿;根蒂=蜷缩;敲声=沉闷),如果采用“好瓜<->(色泽= * )^ (根蒂=蜷缩) ^ (敲声= * )”这个假设,那么该瓜会被认为是好瓜,而如果采用其他两个假设,则会被认为是坏瓜。

那么,应该采用哪一个模型(假设)呢?

这时,学习算法本身的“偏好”会起到关键作用。如,算法喜欢“尽可能特殊”的模型,则它会选择“好瓜<->(色泽= * )^ (根蒂=蜷缩) ^ (敲声= 浊响 )”;而算法如果喜欢“尽可能一般”的模型,则他会选择“好瓜<->(色泽= * )^ (根蒂=蜷缩) ^ (敲声= * )”。
机器学习在学习过程中对某种类型假设的偏好,称为“归纳偏好”或者简称为“偏好”。任何一个有效的机器学习算法必定有它的归纳偏好。

奥卡姆剃刀”,是一种常用的、自然科学研究中最基本的原则,能够引导算法确立“正确的”偏好。即“若有多个假设与观察一致,则选最简单的那个”。那么怎么判定哪个假设更“简单”呢,这个问题需要借助其他机制才能解决。

文中通过算式推导出了一个结论:对于任意两个学习算法,总误差都相等。这就是“没有免费的午餐定理(NFL)”。NFL的前提是:所有“问题”出现的机会相同、或所有问题同等重要。然后实际情况并非这样,因此,NFL定理让我们认识到,脱离具体问题,空泛地谈论“什么样的学习算法更好”毫无意义。

1.5 发展历程

1.6 应用现状

1.7 阅读材料

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值