导读:本文主要介绍机器学习基础知识,包括名词解释(约30个)、基础模型的算法原理及具体的建模过程。
作者:梅子行、毛鑫宇
来源:大数据DT(ID:hzdashuju)
01 空间表征
在学习深奥的机器学习理论之前,首先来介绍一些机器学习中最基本的概念。
特征(Feature):一个具体事物的属性描述,由属性向量表示。第j个记录xj的属性向量可以表示为:
xj=(xj(1),xj(2),…,xj(i),…,xj(n)), j=1,2,…,N, xj∈X
其中每个xj(i)为一个特征维度上的取值。
标记(Label):又称样本标签,用于描述事物某个特性的事项。
标记值:标记的取值。在二分类问题中,取值通常为0和1。
标记空间(输出空间):所有标记的集合,记为Y。
样例(Sample):又称样本。拥有了对应标记的记录,由(记录,标记)对表示。例如,第j个样例可以表示为:
(xj,yj), j=1,2,…,N, xj∈X,yj∈Y
假设空间F通常是由一个参数向量决定的函数族:
F={f|Y=fw(X),w∈Rn}
其中,参数向量w取值于n维向量空间Rn,称为参数空间。假设空间F也可定义为条件概率的集合(概率模型):
F={P|P(Y|X)}
其中,X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。
上述公式理解起来可能较为抽象,接下来我们通过一个实际的例子来理解相关概念。
首先,在建立模型前,一定会有一个由多个样例组成的样本集,比如:
(用户A,{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期})
(用户B,{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期})
(用户C,{年龄:46,身高:177,年收入ÿ