绪论——引言

最新推荐文章于 2024-07-26 19:53:26 发布

计算机视觉从零学

最新推荐文章于 2024-07-26 19:53:26 发布

阅读量188

点赞数

分类专栏：机器学习西瓜书文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_43889476/article/details/118423404

版权

机器学习同时被 2 个专栏收录

31 篇文章 15 订阅

订阅专栏

西瓜书

3 篇文章 0 订阅

订阅专栏

文章目录

1.什么是机器学习
2.基本术语

1.什么是机器学习

机器学习是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验"通常以"数据"形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生"模型” (model) 的算法，即"学习算法" (learning algorithm). 有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时(例如看到一个没剖开的西瓜)，模型会给我们提供相应的判断(例如好瓜) .如果说计算机科学是研究关于"算法"的学问，那么类似的，可以说机器学习是研究关于"学习算法"的学问.

2.基本术语

要进行机器学习，先要有数据.假定我们收集了一批关于西瓜的数据，例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂:稍蜷;敲声=沉闷)， (色泽=浅自;根蒂硬挺;敲声=清脆)，……，每对括号内是一条记录，"_，，意思是"取值为"。
这组记录的集合称为一个"数据集" (data set) ，其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述，称为一个"示例" (instance) 或"样本" (samp1e). 反映事件或对象在某方面的表现或性质的事项，例如"色泽"“根蒂” “敲声”，称为"属性" (attribute) 或"特征" (feature); 属性上的取值，例如"青绿" “乌黑”，称为"属性值" (attribute va1ue). 属性张成的空间称为"属性空间" (attribute space) “样本空间” (samp1e space) 或"输入空间"。例如我们把"色泽" “根蒂” “敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个"特征向量" (feature vector).
在这里插入图片描述
一般地，用(x_i, y_i) 表示第i个样例其中y_i∈Y 是示例 x_i 的标记，Y是所有标记的集合，亦称"标记空间” (label 吕叩pace叫)或"输出空间"。

我们还可以对西瓜做"聚类" (clustering) ，即将训练集中的西瓜分成若干组，每组称为个"簇" (cluster);
机器学习的目标是使学得的模型能很好地适用于"新样本"，而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力，称为"泛化" (generalization) 能力.