吐血整理：机器学习的30个基本概念，都在这里了（手绘图解）

最新推荐文章于 2024-01-10 10:01:12 发布

大数据v

最新推荐文章于 2024-01-10 10:01:12 发布

阅读量1.2k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/106484906

版权

本文深入浅出地介绍了机器学习的基本概念，包括特征、标记、样例、假设空间和模型学习。通过实例展示了特征空间、样本空间和参数空间的构建，并探讨了模型的欠拟合和过拟合问题。文章最后提到了模型评价中的泛化误差，强调了训练集和测试集的重要性。

摘要由CSDN通过智能技术生成

导读：本文主要介绍机器学习基础知识，包括名词解释（约30个）、基础模型的算法原理及具体的建模过程。

作者：梅子行、毛鑫宇

来源：大数据DT（ID：hzdashuju）

01 空间表征

在学习深奥的机器学习理论之前，首先来介绍一些机器学习中最基本的概念。

特征（Feature）：一个具体事物的属性描述，由属性向量表示。第j个记录x_j的属性向量可以表示为：
x_j=(x_j⁽¹⁾，x_j⁽²⁾，…，x_j⁽ⁱ⁾，…，x_j⁽ⁿ⁾)， j=1，2，…，N， x_j∈X
其中每个x_j⁽ⁱ⁾为一个特征维度上的取值。
标记（Label）：又称样本标签，用于描述事物某个特性的事项。
标记值：标记的取值。在二分类问题中，取值通常为0和1。
标记空间（输出空间）：所有标记的集合，记为Y。
样例（Sample）：又称样本。拥有了对应标记的记录，由（记录，标记）对表示。例如，第j个样例可以表示为：
(x_j，y_j)， j=1，2，…，N， x_j∈X，y_j∈Y

假设空间F通常是由一个参数向量决定的函数族：

F={f|Y=f_w(X)，w∈Rⁿ}

其中，参数向量w取值于n维向量空间Rn，称为参数空间。假设空间F也可定义为条件概率的集合（概率模型）：

F={P|P(Y|X)}

其中，X是定义在输入空间X上的随机变量，Y是定义在输出空间Y上的随机变量。

上述公式理解起来可能较为抽象，接下来我们通过一个实际的例子来理解相关概念。

首先，在建立模型前，一定会有一个由多个样例组成的样本集，比如：

（用户A，{年龄：29，身高：185，年收入：70，婚姻状况：未婚，状态：逾期}）

（用户B，{年龄：24，身高：167，年收入：31，婚姻状况：已婚，状态：未逾期}）

（用户C，{年龄：46，身高：177，年收入ÿ

最低0.47元/天解锁文章

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。