感知机模型

卡卡西~

已于 2022-05-26 10:41:38 修改

阅读量1k

点赞数 1

分类专栏： # 机器学习文章标签：机器学习人工智能分类

于 2022-02-12 14:58:09 首次发布

本文链接：https://blog.csdn.net/weixin_46838605/article/details/122880155

版权

机器学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

1 模型的基本描述

感知机模型是二类分类的线性分类模型，是神经网络和支持向量机的基础，有原始形式和对偶形式两种，最终目的是求出将训练数据进行线性划分的分离超平面。它的输出只有正类+1和负类-1两种类别，用的是基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，从而求得感知机模型：
$f(x)=sign(w•x+b)=\left\{ \begin{aligned} +1 & , & w•x+b\geqslant0 \\ -1 & , & w•x+b<0 \end{aligned} \right.$
w•x+b=0对应着一个超平面S，S把所有的样本分成正负两类，求感知机模型相当于求超平面S的参数w和b。
其中，b为超平面的截距，w为超平面的法向量，维度与x的维度保持一致，比如x={x⁽¹⁾,x⁽²⁾,x⁽³⁾},那么w={w₁,w₂,w₃}。w•x不是两个数值简单相乘，而是两个向量的内积，最终函数 f(x) = w•x+b = w₁x⁽¹⁾+w₂x⁽²⁾+w₃x⁽³⁾+b。

2 感知机的学习策略

确定一个学习策略，定义损失函数并极小化损失函数，损失函数通常是误分类点（就是分错的点）到超平面S的总距离。
推导感知机的损失函数：
首先，我们学过初中数学，点(x₀,y₀,z₀)到超平面Ax+By+Cz+D=0的距离为：
$\frac{|Ax_0+By_0+Cz_0+D|}{\sqrt{A^2+B^2+C^2}}$
这里面的A,B,C相当于w₁,w₂,w₃，x₀,y₀,z₀相当于x⁽¹⁾,x⁽²⁾,x⁽³⁾，D相当于b，那么样本点到超平面S的距离为：
$\frac{|w_1x^{(1)}+w_2x^{(2)}+w_3x^{(3)}+b|}{\sqrt{w_1^2+w_2^2+w_3^2}}$
以上是三维空间的计算，推广到n维，点(x⁽¹⁾,x⁽²⁾,…,x⁽ⁿ⁾)到超平面S = w₁x⁽¹⁾+w₂x⁽²⁾+,…,+w_nx⁽ⁿ⁾+b的距离为：
$\frac{|w_1x^{(1)}+w_2x^{(2)}+...+w_nx^{(n)}+b|}{\sqrt{w_1^2+w_2^2+...+w_n^2}}$
此处科普一下， $\sqrt{w_1^2+w_2^2+...+w_n^2}$ 就是法向量w的模，一般简记为w的L₂范数||w||。
为了计算方便，我们还需要将分子中的绝对值去掉：
当一个正类样本x_i分对成正类时，w•x_i+b>0且y_i=+1 > 0；
当一个负类样本x_i分对成负类时，w•x_i+b<0且y_i=-1 < 0；
当一个正类样本x_i分错成负类时，w•x_i+b>0但y_i=-1 < 0；
当一个负类样本x_i分错成正类时，w•x_i+b<0但y_i=+1 > 0；
感知机所求的损失函数只计算分错的样本们到超平面的总距离，并追求距离为0或接近0的情况，所以这里我们只研究后两种分错的情况，可以很容易的看出来，对于后两种情况，-y_i(w•x_i+b) > 0成立，至此，计算样本到超平面的距离便不用再考虑绝对值。
将所有误分类点到超平面S的距离加起来，便得到总距离：
$-\frac{\sum_{x_i\in{M}}y_i(w•x_i+b)}{||w||}$
其中M是误分类点的集合。
我们进一步发现，在每个样本的计算过程中，分母都是相同的二范式||w||，且与样本无关，不影响最终结果，因此为了降低计算量，去掉分母，得到最终的损失函数计算公式：
$-{\sum_{x_i\in{M}}y_i(w•x_i+b)} \geqslant0$
误分类点越少，损失函数值越小，说明选择的超平面越好。
当没有误分类点时，损失函数为0，当有误分类点时，损失函数为关于w和b的线性函数，故损失函数是连续可导的。而连续可导这一性质就为用梯度下降法求解参数w，b提供了前提条件。
还是不懂的话，可以看一下吴恩达老师讲解的梯度下降法
最终学习策略为，从假设空间中选择使损失函数最小的参数w，b，得到参数w和b对应的超平面S=sign(w•x+b)，使S分类后的误分类点个数为0或接近0。

3 感知机学习算法——梯度下降法

感知机算法的原始形式

输入训练数据集 T = {(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，学习率 $\eta(0<\eta\le1)$ （决定了下山时一步跨多大，太大可能会越过最低点，太小可能会循环次数过多，所以选择一个合适的学习率很重要）。
选取初值w₀和b₀。
从训练集中选取样本点(x_i,y_i)，计算该点的损失函数值 y_i(w₀•x_i+b₀)。
如果y_i(w₀•x_i+b₀) > 0，说明该点是正确分类，不需要更新w和b；
如果y_i(w₀•x_i+b₀) < 0，说明该点是误分类点，根据以下公式更新w和b：
$w+\eta y_ix_i \\ b = b + \eta y_i$
此处大部分人都会对公式中的y_ix_i和y_i不解，大学高数学的求偏导还记得吧，这两部分其实就是损失函数L(w,b)分别对w和b求偏导得到的结果。每更新一次，都相当于向最值又靠近了一步。如果还是不解的话，建议搭配吴恩达老师的学习视频食用。
传送门：https://www.bilibili.com/video/BV164411b7dx?p=9
重复步骤3，4，直到训练集中没有误分类点。
输出参数w，b 和感知机模型 $f (x) = s i g n (w • x + b)$ 。

经过定理证明（证明过程略），有限次搜索后一定可以找到能将训练数据完全正确分开的超平面。同时需要注意，感知机学习算法的解不一定唯一，其解依赖于初值的选择，也依赖于误分类点的选择顺序。
对超平面加上约束条件后，会得到唯一的超平面，也就是支持向量机SVM。
传送门：SVM扩展知识

感知机算法的对偶形式

输入训练数据集 T = {(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，学习率 $\eta(0<\eta\le1)$ 。
选取初值 $\alpha$ ₀ = 0 和 b₀ = 0。
从训练集中选取样本点(x_i,y_i)，计算该点的损失函数值 $y_i({\sum_{j=1}^{N}\alpha _jy_jx_j•x+b})$ 。
如果 $y_i({\sum_{j=1}^{N}\alpha _jy_jx_j•x+b})$ > 0，说明该点是正确分类，不需要更新 $\alpha$ 和b；
如果 $y_i({\sum_{j=1}^{N}\alpha _jy_jx_j•x+b})$ < 0，说明该点是误分类点，根据以下公式更新 $\alpha$ 和b：
$\alpha_i = \alpha_i+\eta \\ b = b + \eta y_i$
这里的 $\alpha_i = n_i\eta,n_i$ 表示点(x_i,y_i)被误分类的次数， $\eta$ =1时， $\alpha_i$ 表示第i个实例点由于误分而进行更新的次数。更新次数较多的实例，对学习影响结果较大，距离超平面较近，也就较难正确分类，容易反复横跳。
重复步骤3，4，直到训练集中没有误分类点。
输出参数 $\alpha$ ，b 和感知机模型 $sign({\sum_{j=1}^{N}\alpha _jy_jx_j•x+b})$ 。

在对偶形式中，实例仅以内积的形式出现，为了避免重复计算，可以预先将训练集中实例间的内积计算出来，并存储到Gram矩阵中。
$G = [x_i•x_j]_{N*N}$

扩展学习方法：口袋算法、表决感知机、带边缘感知机等。

卡卡西~

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
感知机模型

监督学习笔记（一）感知机模型模型的基本描述感知机算法的原始形式感知机算法的对偶形式模型的基本描述感知机模型是二类分类的线性分类模型，是神经网络和支持向量机的基础，有原始形式和对偶形式两种，最终目的是求出将训练数据进行线性划分的分离超平面。它的输出只有+1和-1两种类别，用的是基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，从而求得感知机模型。KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q
复制链接

扫一扫

专栏目录