感知机:Perceptron Learning Algorithm

最新推荐文章于 2024-07-17 08:37:33 发布

xholes

最新推荐文章于 2024-07-17 08:37:33 发布

阅读量2.6k

点赞数 1

分类专栏：机器学习文章标签：算法机器学习感知机对偶梯度下降

本文链接：https://blog.csdn.net/xholes/article/details/78279320

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

PLA

感知机是一个二分类器，输入为特征空间，输出表示所属类别。
感知机表示的将输入空间的实例划分为两类的超平面。

感知机学习模型

假设输入空间是 $\cal X \subseteq \tt R^n$ ，其中特征向量 $x \in \cal X$ ；输出空间是 $\cal Y=\{+1,-1\}$ ，输出 $\; y \in \cal Y$ 。那么感知机模型可以表示为：

f (x) = s i g n (w \cdot x + b) (1)

$f(x) = sign(w\cdot x + b) \quad (1)$ 其中，

w,b $w,b$ 为感知机的模型参数。感知机模型时一种线性分类器，属于判别模型。

感知机模型的几何解释：线性方程 $w\cdot x+b = 0$ 对应于特征空间 $\tt R^n$ 中的一个超平面 $S$ ，其中 $w$ 是该平面的法向量， $b$ 是超平面的截距。这个超平面将该空间分为两个部分，位于不同部分的实例属于不同的类别，位于相同部分的实例属于相同的类别。

感知机学习策略

数据集的线性可分性：如果存在一个超平面，可以将数据集中的实例完美的分开，使得不同类型的实例分属超平面的两侧，那么称该数据集线性可分。

对于线性可分的数据集，感知机模型寻找的这样的一个超平面可以将数据集完美的分开。而该超平面由参数 $w,b$ 决定。为了寻找合适的参数，需要指定一个策略，即定义经验损失函数并将其最小化。

损失函数可以很自然的选择误分实例的总个数，但因为不利于优化（不是参数的可导函数），所以并不推荐。因此换为误分实例到超平面的距离：

d = 1 | | w | | | w \cdot x + b | = - 1 | | w | | y | w \cdot x + b |, | | \cdot | | 表 示 L 2 范 数 (2)

$d=\frac{1}{||w||}|w\cdot x+b|=-\frac{1}{||w||}y|w\cdot x+b|,\quad ||\cdot||表示L_2范数\quad (2)$ 如果不考虑

1||w|| $\frac{1}{||w||}$ ，对于给定的训练数据集：

T={(x1,y1),(x2,y2),⋯,(xm,ym)} $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}$ ，其中

xi∈X,y∈Y,i=1,2,⋯,m $x_i\in \cal X,y\in \cal Y,i=1,2,\cdots,m$ ，那么可以感知机学习的损失函数(经验风险函数)定义为：

L(w,b)=−∑y^i(wxi+b)⋅I{yi≠y^i}=∑yi(wxi+b)⋅I{yi≠y^i}(3)

$L(w,b)=-\sum \hat y_i(wx_i+b)\cdot {\bf I}\{y_i \neq \hat y_i\}=\sum y_i(wx_i+b)\cdot {\bf I}\{y_i \neq \hat y_i\}\quad (3)$

感知机学习算法

感知机学习问题就是在假设空间（模型空间）内寻找合适的模型，模型的选择策略根据经验风险的大小。那么问题就转化为最小化经验风险的优化问题。最优化的方法有很多种，可以使用批梯度下降或者随机梯度下降，此处讨论使用随机梯度下降法(SGD)。该无约束优化问题可以描述成：

minw,bL(w,b)=∑i=1myi(wxi+b)⋅I{yi≠y^i}(4)

$\underset {w,b}\min L(w,b)=\sum_{i=1}^m y_i(wx_i+b)\cdot{\bf I}\{y_i \neq \hat y_i\}\quad (4)$
那么分别对参数

w,b $w,b$ 求导为：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∂L∂w=∑i=1mxiyi⋅I{yi≠y^i}(5)∂L∂b=∑i=1myi⋅I{yi≠y^i}

$\left \{ \begin{align} &\frac{\partial L}{\partial w } = \sum_{i=1}^m x_i y_i\cdot{\bf I}\{y_i \neq \hat y_i\}\\ &\qquad\qquad\qquad\qquad\qquad\qquad (5)\\ &\frac{\partial L}{\partial b } = \sum_{i=1}^m y_i\cdot{\bf I}\{y_i \neq \hat y_i\}\\ \end{align} \right.$
那么根据批梯度下降优化，可以得到参数的更新公式为：

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪w:=w+∑i=1mxiyi⋅I{yi≠y^i}(6)b：=b+∑i=1myi⋅I{yi≠y^i}

$\left \{ \begin{align} &w : = w+\sum_{i=1}^m x_i y_i\cdot{\bf I}\{y_i \neq \hat y_i\}\\ &\qquad\qquad\qquad\qquad\qquad\qquad (6)\\ & b ：= b+\sum_{i=1}^m y_i\cdot{\bf I}\{y_i \neq \hat y_i\}\\ \end{align} \right.$
随机梯度下降优化是一个一个样本进行优化，每次参数更新时只是用一个样本，不像批梯度下降中每次更新需要遍历所有的样本。随机梯度下降的参数更新公式为：