课程大纲
Perceptron Hypothesis Set
1.Hypothesis的线性表示
- x=(x1,x2,...xd)
- y={+1,−1}
h(x)=sign((∑i=1dwixi)−thershold)
2.Hypothesis的向量表示
h(x)=sign(wTx)
3.Hypothesis的图像表示
- x :平面上的点
y : ∘(+1) , ∗(−1)- hypothesis :平面上的线,不同的 w 代表不同的线,也代表不同的假设
Perceptron Learning Algorithm
1.算法的目的:从假设空间寻找一个比较好的假设
2.算法的流程
这里解释一下右图:
我们知道犯错有两种情况
- x是正类,错分为负类,即
wTx<0 , w 和x 向量夹角是钝角,所以我们需要纠正一下 w ,也就是w+yx ,在 w 上加上一个正向量,让w 离 x 更近一些. - x是负类,错分为正类,即
wTx>0 , w 和x 向量夹角是锐角,所以我们需要纠正一下 w ,也就是w+yx ,在 w 上加上一个负向量,让w 离 x 更远一些
Guarantee of PLA
如果要保证PLA是收敛的,前提是数据集是线性可分的(Linear Separability)
算法的收敛性
(1)由于训练数据是线性可分的,存在超平面可将训练数据集完全正确分开,取此超平面为ŵ opt⋅x̂ =0 ,使
∥wopt^∥2=1
对于训练数据集均有
yi(ŵ opt⋅xi^)>0
所以存在
γ=mini{yi(ŵ opt⋅xi^)}
使
yi(ŵ opt⋅xi^)≥γ
(2)
wk^wopt^=wk−1^⋅wopt^+yiwopt^⋅xi^≥wk−1^⋅wopt^+γ=kγ
(3)
因为
yi(wk−1^⋅xi^)≤0
定义
R=max1≤i≤Nxi^
∥wk^∥2=∥wk−1^∥+2yiwk−1^⋅xi^+∥xi^∥≤∥wk−1^∥+∥xi^∥≤∥wk−1^∥+R2=kR2
所以有
kγ≤wk^wopt^≤∥wk^∥⋅∥wopt^∥≤k√R
k≤(Rγ)2
说明误分类的次数是有上界的,经过有限次搜索可以找到训练数据完全正确分开的的分离超平面,也就是说,当训练数据线性可分时,感知机学习算法形式迭代是收敛的