机器学习2：机器学习中的基本术语

最新推荐文章于 2024-07-20 11:34:07 发布

zczyyds

最新推荐文章于 2024-07-20 11:34:07 发布

阅读量41

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/zczyyds/article/details/132019697

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

任务类型

如果我们的预测值是离散的值，例如’positive’, ’negative’4, 此类任务称为分类任务 (classifi-
cation)。

如果我们预测值是连续值，例如学习预测西瓜成熟的概率、学习预测未来的房价等。由于是
连续型，因此标记的所有可能取值无法直接罗列，通常只有取值范围，此类任务我们称为回
归任务 (Regression).

预测任务的目的是通过对数据集中的 examples 进行学习，实现从输入空间 (sample space)X
到输出空间 (label space)Y 的映射 $\mathcal{X}\mapsto\mathcal{Y}$ .

此外，我们也可以对数据做聚类任务（clustering）: 将训练集中的 instances 分为若干个簇
(cluster), 这些自动形成的簇可能对应着一些潜在的概念，这些概念是我们事先是不知道的，
并且我们使用的数据大多情况下是无标签的。

根据数据是否带有标签，划分两大类学习任务：监督学习 (supervised learning) 和无监督学习
(unsupervised learning), 上文中的 classification 和 regression 属于监督学习，clustering 属于
无监督学习。

泛化 (Generalization）

通过训练集学习得到的模型在新的数据集上的适应能力被称为泛化能力。

通常，我们假设样本空间中的所有样本服从一个未知的分布 (Distribution)D, 并且样本都是
独立同分布的。我们的训练集通常情况下都只是样本空间中的一个很小的采样，具有强泛化
能力的模型对 D 的信息掌握的更多，能够很好的适用于整个样本空间.

南瓜书中提到的一句话很有意义：“数据决定模型效果的上限，而算法则是决定模型能够逼近
这个上限的程度”:
从数据的角度来说，通常有两大因素用来考量数据：数据量和特征工程.

数据量越大，通常来说模型的效果就越好，因为我们得到的样本空间的分布 D 的信息就越多；
从特征工程的角度来说, 如何选取 instance 的特征尤为重要，例如南瓜书中的例子：区分亚洲
人和非洲人时，此时样本即为人，在进行特征工程时，如果收集到每个样本的肤色特征，则
其他特征例如年龄、身高和体重等便可省略，因为只需靠肤色这一个特征就足以区分亚洲人
和非洲人。