机器学习 第一章

目录

前言

一、基本术语

二、假设空间

三、归纳偏好

四、发展


前言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。它所研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”。

一、基本术语

数据集(data set)指的是一组记录的集合;示例样本是指每条记录是关于一个事件或对象的描述;属性特征指的是反映事件或对象在某方面的表现或性质的事项;属性值是指属性上的取值;属性空间样本空间输入空间是属性张成的空间。由于空间中的每个点对应一个坐标向量,因此也可以把一个示例叫做特征向量

从数据中学的模型的过程叫做学习或者训练;训练过程中使用的数据叫做训练数据,每个样本称为一个训练样本,训练样本组成的集合叫做训练集。学得模型对应了关于数据得某种潜在规律,因此也被叫做假设;这种潜在规律本身叫做真相或者真实(ground-truth),学习过程就是为了找到或者逼近真相。

若是预测的为离散值则将此类学习任务叫做分类;若是预测的为连续值则将此类学习任务叫做回归。根据训练数据是否拥有标签信息将学习任务分为监督学习无监督学习两大类。分类和回归属于监督学习,聚类属于无监督学习。

二、假设空间

归纳与演绎是科学推理的两大基本手段。归纳是从特殊到一般的泛化过程,即从具体的事实归结出一般性规律;演绎是从一般到特殊的特化过程,即从基础原理推演出具体情况。

归纳学习有狭义和广义之分,广义的归纳学习相当于从样例中学习;狭义的归纳学习要求从训练数据中学的概念,所以也被叫做概念学习或概念形成。概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值目标概念的学习。

可以把学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集匹配的假设。

三、归纳偏好

机器学习在学习过程中对某种类型假设的偏好叫做归纳偏好,或简称为偏好。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效的”假设所迷惑,而无法产生确定的学习结果。

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”,可以使用“奥卡姆剃刀”来引导算法确定正确的偏好,它是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。在具体的现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

“没有免费的午餐”定理(NFL)指出没有一种算法在所有问题上都表现得最好。其最重要的意义,是让我们意识到需要根据具体的问题去谈论算法的优劣。

四、发展

机器学习是人工智能研究发展到一定阶段的必然产物。二十世纪五十年代到七十年代,人工智能研究处于“推理期”,代表作为“逻辑理论家”程序以及此后的“通用问题求解”程序;二十世纪七十年代中期,人工智能研究进入“知识期”。

二十世纪八十年代,“从样例中学习”的一大主流是符号主义学习,其代表有决策树和基于逻辑的学习。决策树学习以信息论为基础,以信息熵的最小化为基础目标,直接模拟了人类对概念进行判定的树形流程。基于逻辑的学习的著名代表是归纳逻辑程序设计(ILP,其实际是ILP的前身),它使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。二十世纪九十年代中期之前,"从样例中学习"的另一主流技术是基于神经网络的连接主义学习。它的最大局限是“试错性”。十世纪九十年代中期,“统计学习”出现并迅速成为了主流,代表技术为支持向量机(SVM)和更一般的核方法。核方法目前成为了机器学习的基本内容。二十一世纪初,连接主义学习以“深度学习”为名又出现了。

应用:机器学习广泛的应用于人类社会的每一个行业,它为许多的交叉学科提供了重要的技术支撑;其次机器学习为科学研究的整个过程正起到了越来越大的支撑作用。,其进展对科学发展意义重大。机器学习受到关注有两点原因,其一为它已成为智能数据分析技术的创新源泉;其二为它可以通过建立一些关于学习的计算模型来促进我们理解“人类如何学习”。

  • 14
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值