2.1 感知机模型
定义2.1 (感知机) 假设输入空间(特征空间)是 χ⊂R2 χ ⊂ R 2 ,输出空间是 Y={
+1,−1} Y = { + 1 , − 1 } .输入 x∈χ x ∈ χ 表示实例的特征向量,对应于输入空间(特征空间)的点;输出 y∈Y y ∈ Y 表示实例的类别。由输入空间到输出空间的如下函数
f(x)=sign(w⋅x+b) f ( x ) = s i g n ( w ⋅ x + b )
称为感知机。其中, w w 和 为感知机模型参数, w∈Rn w ∈ R n 叫做权值(weight)或权值向量, b∈R b ∈ R 叫作偏置(bias), w⋅x w ⋅ x 表示内积。sign是符号函数,即
sign(x)={
+1,−1,x >= 0x <0 s i g n ( x ) = { + 1 , x >= 0 − 1 , x <0
感知机是一种线性分类模型,属于判别模型。
几何解释:线性方程
w⋅x+b=0 w ⋅ x + b = 0
对应于特征空间 Rn R n 中的一个超平面 S S ,其中 是超平面的法向量, b b 是超平面的截距。
2.2 学习策略
定义2.2 (数据集的线性可分性) 给定一个数据集
其中, xi∈χ=Rn,yi∈Y={ +1,−1},i=1,2,...,N x i ∈ χ = R n , y i ∈ Y = { + 1 , − 1 } , i = 1 , 2 , . . . , N ,如果存在某个超平面 S S
能够将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对所有 yi=+1 y i = + 1 的实例 i i ,有 ,对所有 yi=−1 y i = − 1 的实例 i i ,有 ,则成数据集 T T 为线性可分数据集(linearly separable data set);否则,称数据集 线性不可分。
损失函数
假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。即确定感知机模型参数 w,b w , b ,使损失函数极小化。
感知机所采用的损失函数为:误分类点到超平面 S S 的总距离。
给定训练数据集