机器学习---第一章绪论（1）

最新推荐文章于 2024-01-07 02:05:53 发布

Augenstern果果

最新推荐文章于 2024-01-07 02:05:53 发布

阅读量756

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45340844/article/details/107114252

版权

本文是机器学习第一章的绪论部分，介绍了机器学习的定义和基本术语，如学习算法、数据集、示例、属性和模型。通过研究数据产生模型，用于面对新情况时做出判断。机器学习的任务包括分类、回归和聚类，根据数据是否有标记信息分为监督学习和无监督学习。泛化能力是评估模型的重要标准。

摘要由CSDN通过智能技术生成

机器学习

第一章绪论（1）

序言

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”的形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）。有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时（例如看到一个没剖开的西瓜），模型会给我们提供相应的判断（例如好瓜）。如果说计算机科学是研究关于“算法”的学问，那么类似的，可以说机器学习是研究关于“学习算法”的学问。
今后我们用“模型”泛指从数据中学得的结果。（注：有的文献用“模型”指全局性结果（例如一棵决策树），而用“模式”指局部性结果（例如一条规则）。）

Mitchell给出了一个更加形式化的定义：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们说关于T和P，该程序对E进行了学习。

基本术语

进行机器学习我们需要有数据。假定我们收集了一批关于西瓜的数据，例如（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆），…，每对括号内都是一条记录，“=”意思为“取值为”。

这组记录的集合称为一个“数据集”（data set），其中每一条记录是关于一个事件或者对象（瓜）的描述，称为一个“示例”（instance）
或“样本”（sample）。反映事件或对象在某方面的表现或性质的事项，例如“色泽”“根蒂”“敲声”，称为属性（attribute）或“特征”（feature）；属性上的取值，例如“青绿”“乌黑”，称为“属性值”（attribute value）。属性张成的空间称为“属性空间”（attribute space）、“样本空间”（sample space）或“输入空间”。例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”（feature vector）。

一般来讲，令D={ $x_1$ , $x_2$ ,…, $x_m$ }表示包含m个示例的数据集，每个示例由d个属性描述（上文西瓜数据用了三个属性），则每个示例xi=（ $x_{i1}$ ; $x_{i2}$ ;…;