感知机是二分类、线性可分的分类器。感知机使用随机梯度下降法优化参数。
1. 原始形式
f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w \cdot x+b) f(x)=sign(w⋅x+b)
损 失 函 数 : L ( w , b ) = − ∑ i = 1 N y i ( w ⋅ x i + b ) 损失函数: L(w,b)=-\sum \limits_{i=1}^{N} y_i(w \cdot x_i + b) 损失函数:L(w,b)=−i=1∑Nyi(w⋅xi+b)
w = w + η y i x i w=w+\eta y_ix_i w=w+ηyixi
b = b + η y i b=b+\eta y_i b=b+ηyi
其 中 x i ∈ M , 也 就 是 x i 是 被 错 分 的 数 据 点 , 每 次 随 机 选 取 一 个 其中x_i \in M,也就是x_i是被错分的数据点,每次随机选取一个 其中xi∈M,也就是xi是被错分的数据点,每次随机选取一个
2. 对偶形式
f ( x ) = s i g n ( ∑ j = 1 N α j y j x j ⋅ x + b ) f(x)=sign(\sum \limits_{j=1}^N \alpha_j y_j x_j \cdot x+b) f(x)=sign(j=1∑Nαjyjxj⋅x+b)
α j = α j + η \alpha_j=\alpha_j+\eta αj=αj+η
b = b + η y i b=b+\eta y_i b=b+ηyi
使用了Gram矩阵来计算x之间的点乘来降低重复运算。主要应用于特征数远远大于样本数。(特征空间的维度远大于数据集大小时才起作用)
3. Q
为什么是线性可分分类器呢?因为分界面是线性的。