绪论——引言

1.什么是机器学习

  机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验"通常以"数据"形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型” (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问.

2.基本术语

  要进行机器学习,先要有数据.假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂:稍蜷;敲声=沉闷), (色泽=浅自;根蒂 硬挺;敲声=清脆),……,每对括号内是一条记录,"_,,意思是"取值为"。
  这组记录的集合称为一个"数据集" (data set) ,其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (samp1e). 反映事件或对象在某方面的表现或性质的事项,例如"色泽"“根蒂” “敲声”,称为"属性" (attribute) 或"特征" (feature); 属性上的取值,例如"青绿" “乌黑”,称为"属性值" (attribute va1ue). 属性张成的空间称为"属性空间" (attribute space) “样本空间” (samp1e space) 或"输入空间"。例如我们把"色泽" “根蒂” “敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个"特征向量" (feature vector).
在这里插入图片描述
  一般地,用(xi, yi) 表示第i个样例 其中yi∈Y 是示例 xi 的标记 ,Y是所有标记的集合,亦称"标记空间” (label 吕叩pace叫)或"输出空间"。
在这里插入图片描述
  我们还可以对西瓜做"聚类" (clustering) ,即将训练集中的西瓜分成若干组,每组称为 个"簇" (cluster);
  机器学习的目标是使学得的模型能很好地适用于"新样本",而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为"泛化" (generalization) 能力.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值