感知机:
- 是二分类的线性分类模型,输入为实例的特征向量,输出为实例的类别,取+1和-1。
- 旨在求出将训练数据进行线性划分的分离超平面
- 感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式
感知机模型
-
感知机: f ( x ) = s i g n ( w ⋅ x + b ) f(x)=sign(w·x+b) f(x)=sign(w⋅x+b)
– w 和 b w和b w和b为感知机模型参数, w ϵ R n w\epsilon R^{n} wϵRn叫做权值或权值向量, b ϵ R b\epsilon R bϵR叫做偏置, w ⋅ x w·x w⋅x表示 w w w和 x x x的内积, s i g n sign sign是符号函数:
– s i g n ( x ) = { + 1 , x ≥ 0 − 1 , x < 0 sign(x)=\left\{\begin{matrix} +1, & x\geq 0 \\ -1, & x< 0 \\ \end{matrix}\right. sign(x)={+1,−1,x≥0x<0 -
几何解释:线性方程 w ⋅ x + b = 0 w·x+b=0 w⋅x+b=0对应于特征空间中的一个超平面S,其中 w w w是超平面的法向量, b b b是超平面的截距。这个超平面将特征空间划分为两个部分,位于两部分的点(特征向量)分别被分为正、负两类。因此,超平面S称为分离超平面。
感知机学习策略
数据集的线性可分性
给定一个数据集T,如果存在某个超平面S能够将数据集的正负实例点完全正确地划分到超平面的两侧,即对所有 y i = + 1 y_{i}=+1 yi=+1的实例i,有 w ⋅ x + b > 0 w·x+b>0 w⋅x+b>0,对所有 y i = − 1 y_{i}=-1 yi=−1的实例i,有 w ⋅ x + b < 0 w·x+b<0 w⋅x+b<0,则称数据集T为线性可分数据集;否则,称数据集T线性不可分。
感知机学习策略
为找到超平面,即确定感知机模型参数 w , b w,b w,b,需要确定一个学习策略,即定义损失函数并将损失函数最小化
- 损失函数选择一:误分类点的总数,这样的损失函数不是参数 w , b w,b w,b的连续可导函数,不易优化
- 损失函数选择二:
误分类点到超平面S的总距离
输入空间中任一点 x 0 x_{0} x0到超平面S的距离:
- 1 ∥ w ∥ ∣ w ⋅ x + b ∣ \frac{1}{\left\|w \right\|}|w\cdot x+b| ∥w∥1∣w⋅x+b∣
- ∥ w ∥ \left\|w\right\| ∥w∥是 w w w的 L 2 L_{2} L2范数
误分类点 x i x_{i} xi到超平面的距离:
- − 1 ∥ w ∥ y i ∣ w ⋅ x + b ∣ -\frac{1}{\left\|w \right\|}y_{i}|w\cdot x+b| −∥w∥1yi∣w⋅x+b∣
假设超平面的误分类点集合为M,那么所有误分类点到拆排名的总距离:
- − 1 ∥ w ∥ ∑ x i ϵ M y i ∣ w ⋅ x + b ∣ -\frac{1}{\left\|w \right\|}\sum_{x_{i}\epsilon M} y_{i}|w\cdot x+b| −∥w∥1∑xiϵMyi∣w⋅x+b∣
- 不考虑 1 ∥ w ∥ \frac{1}{\left\|w \right\|} ∥w∥1,就得到了感知机学习的损失函数
L ( w , b ) = − ∑ x i ϵ M y i ( w ⋅ x + b ) L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}(w·x+b) L(w,b)=−∑xiϵMyi(w⋅x+b)
- 这个损失函数就是感知机学习的经验风险函数
- 在假设空间中选取使上述损失函数式最小的模型参数 w , b w,b w,b,即感知机模型
感知机学习算法
感知机学习问题转化为求解损失函数式最小化问题,最优化的方法是
随机梯度下降法
感知机学习算法的原始形式
- 采用随机梯度下降法
首先,任意选取一个超平面 w 0 , b 0 w_{0},b_{0} w0,b0,然后用随机梯度下降法不断地极小化目标函数。
极小化过程不是一次使M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降
随机选取一个误分类点
(
x
i
,
y
i
)
(x_{i},y_{i})
(xi,yi),对
w
,
b
w,b
w,b进行更新:
η
(
0
<
η
≤
1
)
\eta(0< \eta \leq 1)
η(0<η≤1)是步长,在统计学习中又被称为学习率。
算法的收敛性证明
略
感知机学习算法的对偶形式
基本想法:将 w , b w,b w,b表示为实例 x i x_{i} xi和标记 y i y_{i} yi的线性组合形式,通过求解其系数而得到 w , b w,b w,b。
假设初始值 w 0 , b 0 w_{0},b_{0} w0,b0都为0,设修改n次, w , b w,b w,b关于 ( x i , y i ) (x_{i},y_{i}) (xi,yi)的增量分别是 α i y i x i 和 α i y i \alpha_{i}y_{i}x_{i}和\alpha_{i}y_{i} αiyixi和αiyi,这里 α i = n i η \alpha_{i} = n_{i}\eta αi=niη
对偶形式中训练实例仅以内积的形式出现,为了方便,可以预先将训练集中实例间的内积计算出来并以矩阵的形式存储,这个矩阵就是Gram矩阵
- G = [ x i ⋅ x j ] N × N G=[x_{i}·x_{j}]_{N×N} G=[xi⋅xj]N×N