机器学习---第一章 绪论(1)

本文是机器学习第一章的绪论部分,介绍了机器学习的定义和基本术语,如学习算法、数据集、示例、属性和模型。通过研究数据产生模型,用于面对新情况时做出判断。机器学习的任务包括分类、回归和聚类,根据数据是否有标记信息分为监督学习和无监督学习。泛化能力是评估模型的重要标准。
摘要由CSDN通过智能技术生成

机器学习

第一章 绪论(1)

序言

机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜)。如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。
今后我们用“模型”泛指从数据中学得的结果。(:有的文献用“模型”指全局性结果(例如一棵决策树),而用“模式”指局部性结果(例如一条规则)。)

Mitchell给出了一个更加形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们说关于T和P,该程序对E进行了学习。

基本术语

进行机器学习我们需要有数据。假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),…,每对括号内都是一条记录,“=”意思为“取值为”。

这组记录的集合称为一个“数据集”(data set),其中每一条记录是关于一个事件或者对象(瓜)的描述,称为一个“示例”(instance)
或“样本”(sample)。反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”,称为属性(attribute)或“特征”(feature);属性上的取值,例如“青绿”“乌黑”,称为“属性值”(attribute value)。属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(feature vector)。

一般来讲,令D={ x 1 x_1 x1, x 2 x_2 x2,…, x m x_m xm}表示包含m个示例的数据集,每个示例由d个属性描述(上文西瓜数据用了三个属性),则每个示例xi=( x i 1 x_{i1} xi1; x i 2 x_{i2} xi2;…;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Augenstern果果

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值