吐血整理:机器学习的30个基本概念,都在这里了(手绘图解)

本文深入浅出地介绍了机器学习的基本概念,包括特征、标记、样例、假设空间和模型学习。通过实例展示了特征空间、样本空间和参数空间的构建,并探讨了模型的欠拟合和过拟合问题。文章最后提到了模型评价中的泛化误差,强调了训练集和测试集的重要性。
摘要由CSDN通过智能技术生成


导读:本文主要介绍机器学习基础知识,包括名词解释(约30个)、基础模型的算法原理及具体的建模过程。

作者:梅子行、毛鑫宇

来源:大数据DT(ID:hzdashuju)

01 空间表征

在学习深奥的机器学习理论之前,首先来介绍一些机器学习中最基本的概念。

  • 特征(Feature):一个具体事物的属性描述,由属性向量表示。第j个记录xj的属性向量可以表示为:

    xj=(xj(1),xj(2),…,xj(i),…,xj(n)), j=1,2,…,N, xj∈X

    其中每个xj(i)为一个特征维度上的取值。

  • 标记(Label):又称样本标签,用于描述事物某个特性的事项。

  • 标记值:标记的取值。在二分类问题中,取值通常为0和1。

  • 标记空间(输出空间):所有标记的集合,记为Y。

  • 样例(Sample):又称样本。拥有了对应标记的记录,由(记录,标记)对表示。例如,第j个样例可以表示为:

    (xj,yj), j=1,2,…,N, xj∈X,yj∈Y

假设空间F通常是由一个参数向量决定的函数族:

F={f|Y=fw(X),w∈Rn}

其中,参数向量w取值于n维向量空间Rn,称为参数空间。假设空间F也可定义为条件概率的集合(概率模型):

F={P|P(Y|X)}

其中,X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。

上述公式理解起来可能较为抽象,接下来我们通过一个实际的例子来理解相关概念。

首先,在建立模型前,一定会有一个由多个样例组成的样本集,比如:

(用户A,{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期})

(用户B,{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期})

(用户C,{年龄:46,身高:177,年收入ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值