1 感知机是什么
本文为感知机学习笔记,主要参考李航《统计学习方法》
定义
感知机(preceptron) 是一个经典的二分类模型,旨在特征空间中找到一个超平面,使得正负样本点尽可能分布在超平面两侧。
感知机的发展
- 1957年Rosenbllatt提出感知机,这在当时是一个非常令人兴奋的发现。
- 1960年,维德罗首次使用Delta学习规则用于感知器的训练步骤, 这两者的结合创造了一个良好的线性分类器。
- 1962年,Rosenbllatt,Novikoff等人进行了一系列理论研究 ,如感知机收敛定理等
- 1969年Marvin Minsky将感知器话题推到最高顶峰。他提出了著名的XOR问题和感知器数据线性不可分的情形,之后机器学习的研究处于休眠状态。
- 1981年,多层感知器(MLP)由伟博斯神经网络反向传播算法中具体提出。
- 1995年 , 机器学习领域中一个最重要的突破,支持向量(support vector machines, SVM )被提出,其来源于感知机
2感知机为什么可以分类——感知机原理
2.1模型
感知机是一个二类分类的线性模型,其输入为实例的特征向量, 输出为实例的类别,取+1和-1。
线性方程
w
∗
x
+
b
=
0
w*x + b = 0
w∗x+b=0 对应特征空间的一个超平面。如下图:
2.2策略
感知机选择超平面的策略是误分类点到超平面的总距离最小。
首先,任意一点x到超平面的距离为:
∣
w
x
+
b
∣
∣
∣
w
∣
∣
\frac{|wx+b|}{||w||}
∣∣w∣∣∣wx+b∣
将超平面上方的点记为正类点,标签为1 。超平面下方的点标签则为-1 。注意到,
w
x
+
b
>
0
wx+b>0
wx+b>0,说明x在超平面上方。 所以,
y
(
w
x
+
b
)
>
0
y(wx+b)>0
y(wx+b)>0则说明分类正确,
−
y
(
w
x
+
b
)
>
0
-y(wx+b)>0
−y(wx+b)>0则分类错误。
对于一个分类模型,误分类的点越少越好,当一个样本点已经在错误的一侧后,希望它距离超平面越近越好。也就是误分类的点到超平面总距离越小越好。
将所有误分类的点记为集合M(mistake), 则损失函数为:
L
o
s
s
(
W
,
b
)
=
−
∑
x
i
⊂
M
y
i
(
w
x
i
+
b
)
∣
∣
w
∣
∣
Loss(W,b)=-\sum_{x_i\subset M}\frac{y_i(wx_i+b)}{||w||}
Loss(W,b)=−∑xi⊂M∣∣w∣∣yi(wxi+b)
||w||的大小对解没有影响, 则最终感知机的学习策略,
m
i
n
L
o
s
s
(
W
,
b
)
=
−
∑
x
i
⊂
M
y
i
(
w
x
i
+
b
)
min Loss(W,b)=-\sum_{x_i\subset M}y_i(wx_i+b)
minLoss(W,b)=−∑xi⊂Myi(wxi+b)
2.3算法
确定损失函数之后,要做的就是找到使得损失函数最小的 ( w , b ) (w,b) (w,b)(感知机的求解算法为梯度下降法。求导知,损失函数对w,b的梯度分别为
- ▽ w = − ∑ x i ⊂ M y i x i \triangledown _w=-\sum_{x_i\subset M}y_ix_i ▽w=−∑xi⊂Myixi
- ▽ b = − ∑ x i ⊂ M y i \triangledown _b=-\sum_{x_i\subset M}y_i ▽b=−∑xi⊂Myi
算法:
1 初始化超平面 ( w 0 , b 0 ) (w_0,b_0) (w0,b0) ,阈值e.
2 计算误分类集合M
3 更新(w,b) w = w + η y i x i ; b = b + η y i w= w+\eta y_ix_i ; b= b+\eta y_i w=w+ηyixi;b=b+ηyi, 计算损失值。
4 重复2,3 直到损失值小于阈值e。
上图为感知机迭代过程
2.4对偶算法
感知机对偶形式的基本想法是, 在上述算法中可假设初始值 w 0 , b 0 w_0,b_0 w0,b0均为0, η = 1 \eta=1 η=1, 从梯度下降学习过程中可以看出,最后学习的w,b分别为( x i , y i x_i,y_i xi,yi线性组合的形式):
- w = ∑ i = 1 N α i y i x i w=\sum_{i=1}^{N}\alpha_iy_ix_i w=∑i=1Nαiyixi
- b = ∑ i = 1 N α i y i b=\sum_{i=1}^{N}\alpha_iy_i b=∑i=1Nαiyi
那么模型则为
f
(
x
)
=
s
i
g
n
(
∑
j
=
1
N
α
j
y
j
x
j
⋅
x
+
b
)
f(x) = sign(\sum_{j=1}^{N}\alpha_jy_jx_j \cdot x+b)
f(x)=sign(∑j=1Nαjyjxj⋅x+b)
α
i
\alpha_i
αi表示第i个样本点参与更新的次数。 实例点更新的次数多,意味这它常被误分,也就离超平面较近,也就越难正确分类。这样的实例点对学习结果的影响最大。类似于SVM中的支持向量。
若
η
≠
1
\eta\neq 1
η=1,
α
i
\alpha_i
αi也可以近似理解为更新次数。则对偶型式的算法为
1 α = ( α 1 , α 2 , ⋯ , α N ) T , α = 0 , b = 0 \alpha =(\alpha_1, \alpha_2, \cdots ,\alpha_N)^T , \alpha = 0,b=0 α=(α1,α2,⋯,αN)T,α=0,b=0
2 若 y i ( ∑ j = 1 N α j y j x j ⋅ x + b ) ⩽ 0 y_i(\sum_{j=1}^{N}\alpha_jy_jx_j \cdot x+b)\leqslant 0 yi(∑j=1Nαjyjxj⋅x+b)⩽0, 则更新 :
- α i = α i + η \alpha_i = \alpha_i+\eta αi=αi+η
- b = b + η y i b=b+\eta y_i b=b+ηyi
直到损失值小于阈值。
对偶形式中训练实例只以内积的形式出现,为了计算快捷,可以将训练集中的内积计算出来以矩阵形式存储,这个矩阵就是Gram矩阵 G = [ x i ⋅ x j ] G=[x_i\cdot x_j] G=[xi⋅xj]。
2.5理论性质——收敛性
这是《统计学习方法》p31的结论,主要证明了 对于线性可分数据集感知机是可以找到超平面将其完全划分的,而且梯度下降算法在训练中的误分类次数是有界的。详细证明参考书。
显然对于线性可分数据集,感知机的解不是唯一的,只要所有的点都被正确分类,就会停止迭代,所以初始点、步长不同,得到的解不同
3 感知机实现
3.1 Numpy实现perceptron
代码如下:
import numpy as np
import matplotlib.pyplot as plt
x_train=np.array([3,3,4,3,1,1]).reshape(-1,2,order='C')
y_train=np.array([1,1,-1]).reshape(-1,1)
#写一个整的函数,输入x_train ,y_train,eta ,输出 W=(w1.w2.b)
def perceptron(x_train,y_train,eta=1):
N,p=x_train.shape
#design matrix # x_Rd design x_Rd+1
X=np.concatenate((x_train,np.ones(N).reshape(N,1)),axis=1)
W=np.ones(p+1).reshape(p+1,1)
#梯度下降,直到不在变化
error=1
while error>1e-05:
loc = np.where(np.dot(X,W)*y_train<=0)[0]# 误分类点
if len(loc)>0:
#error = sum((-1)*np.dot(X[loc,:],W)*y_train[loc,:])
loc = loc[0]
else : return W
X_mis = X[loc]; Y_mis=y_train[loc]
X_mis = X_mis.reshape(-1,p+1);Y_mis=Y_mis.reshape(-1,1)
W_temp = W + eta*np.dot(Y_mis.T,X_mis).reshape(-1,1)
error = np.dot((W-W_temp).T,W-W_temp)
W=W_temp
print(W)
return W
W=perceptron(x_train,y_train,eta=0.1)
#预测函数
def predict_percep (x_test,W):
pre=np.dot(x_test, W[:-1,:])+W[-1,:]
pre[pre>=0]=1;pre[pre<0]=-1;
return pre
y_predict = predict_percep(x_train,W)
3.4 调用sklearn实现perceptron
import numpy as np
from sklearn.datasets import make_classification
from sklearn.linear_model import Perceptron
#生成二分类的样本
x,y = make_classification(n_samples=1000,n_features=2,n_redundant=0,n_informative=1,n_clusters_per_class=1)
# make_classification模拟生成分类样本
y = np.array([(lambda x:1 if x==1 else -1)(i) for i in y])
#分成训练集和测试集
x_train = x[:800,]
y_train = y[:800,]
x_test = x[800:,]
y_test= y[800:,]
clf = Perceptron(fit_intercept=False, shuffle=False)#实例化一个感知机模型
clf.fit(x_train,y_train)#使用训练数据进行训练
#得到训练结果,权重矩阵
print(clf.coef_)
#预测
acc = clf.score(x_test,y_test)
print(acc)#正确率
>0.972
3.5 可视化
#正例和反例
positive_location = np.where(y_train==1)
negetive_location = np.where(y_train==-1)
#画出正例,负例,超平面
from matplotlib import pyplot as plt
plt.scatter(x_train[positive_location,][:,:,0],x_train[positive_location,][:,:,1],marker='*')
plt.scatter(x_train[negetive_location,][:,:,0],x_train[negetive_location,][:,:,1],color="red",marker='+')
line_x = np.arange(-4,4)
line_y = line_x * (-clf.coef_[0][0] / clf.coef_[0][1]) - clf.intercept_
plt.plot(line_x,line_y)
plt.show()
总结
感知机是基础的ML模型,是svm的前生。
感知机的策略为最小误分类点到超平面距离 ,算法为梯度下降法。
感知机是线性分类器,对于非线性问题和高维问题效果交叉,而SVM通过核技巧解决了这个问题。
感知机及其对偶形式算法效率上的区别是什么,话句话说,什么时候使用对偶形式,这个问题没搞懂,清楚的希望能留言告诉我。