感知机模型详解

最新推荐文章于 2024-05-01 00:15:00 发布

zhong_ddbb

最新推荐文章于 2024-05-01 00:15:00 发布

阅读量2.7k

点赞数 2

分类专栏：机器学习基础文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/105864563

版权

机器学习基础专栏收录该内容

31 篇文章 21 订阅

订阅专栏

感知机是二分类的线性分类器，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机将特征空间中的实例划分为正负两类，属于判别模型。

文章目录

感知机模型
- 模型
- 模型的几何解释
损失函数
学习算法
- 学习算法的原始形式
- 学习算法的对偶形式
感知机不能用于异或

感知机模型

模型

输入空间： $\mathcal X\sube \bf R^n$

输出空间： $\mathcal Y=\{+1,-1\}$

决策函数： $(w\cdot x+b)$

其中sign是符号函数，即
$\begin{cases} 1,\qquad x \geq 0 \\-1, \qquad x < 0\end{cases}$
感知机将特征空间中的实例划分为正负两类，属于判别模型。

模型的几何解释

线性方程：
$w\cdot x+b = 0$
对应特征空间 $\bf R^n$ 中的一个超平面 $\bf S$ ，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。

在这里插入图片描述

超平面将样本点分成两类。感知机的目标就是确定这个超平面。即确定模型的参数 $w, b$ ，这就需要一个损失函数，并将损失函数极小化。

损失函数

选择误分类点到超平面 $\bf S$ 的总距离作为损失函数。

首先，找出一个误分类点到超平面的距离

因为输入空间$\bf R^n $ 中任一点 $x_0$ 到超平面 $S$ 的距离：
$\frac{1}{||w||}|w\cdot x_0 + b|$
对于误分类点来说： $w\cdot x_0 + b$ 与 $y_i$ 总是符号相反。即：
$-y_i(w\cdot x_0 + b)>0$
所以一个误分类点到超平面之间的距离是：
$-\frac{1}{||w||} y_i(w\cdot x_0 + b)$
其次，假设所有的误分类点的集合是 $M$ ，所以所有误分类点到平面的总距离为：
$-\frac{1}{||w||}\sum_{x_i\in M}y_i(w\cdot x_i+b)$
令 $∣ ∣ w ∣ ∣ = 1$ ，得到损失函数：
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
注意：损失函数是非负的，若不存在误分类点，则损失函数为0。

有了损失函数，接下来就是极小化损失函数，确定模型参数。

学习算法

学习算法的原始形式

给定一个训练集:
$T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} \\ x_i\in \mathcal X=\bf R^n, y_i\in \mathcal Y\it =\{-1,+1\}, i=1,2,\dots,N; 0<\eta\leqslant 1$

求 $w, b$ ，使得损失函数极小化：
$\min\limits_{w,b} L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
采用梯度下降算法。假设误分类点M是固定的。所以有：
$\frac{\partial L(w,b)}{\partial w} = -\sum_{x_i \in M} x_i y_i\\ \frac{\partial L(w,b)}{\partial b} = -\sum_{x_i \in M} y_i$
对于每一个分类点，对 $w, b$ 进行更新：
$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$
具体算法流程如下：

输入：
$T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}\\ \\x_i\in \mathcal X=\bf R^n , y_i\in \mathcal Y\it =\{-1,+1\}, i=1,2,\dots,N; \ \ 0<\eta\leqslant 1$

输出： $w,b;f(x)=sign(w\cdot x+b)$

选取初值 $w_0,b_0$
训练集中选取数据 $x_i,y_i)$
如果 $y_i(w\cdot x_i+b)\leqslant 0$

$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$

转至(2)，直至训练集中没有误分类点

学习算法的对偶形式

对偶形式的基本思想是：将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数而求得 $w$ 和 $b$ 。

回顾 $w, b$ 的更新过程：
$w\leftarrow w+\eta y_ix_i \\ b\leftarrow b+\eta y_i$
对于某一个误分类点 $x_i,y_i)$ 而言，他可能参与了 $n_i$ 次的 $w, b$ 的更新过程，直至超平面能使他成为正确分类点，他才不参与 $w, b$ 的更新。所以此误分类点对 $w, b$ 所贡献的增量分别为 $n_i\eta y_i x_i $和$ n_i\eta y_i $，这是一个误分类点的情况。令$ \alpha_i = n_i\eta$，对于多个分类点，我们对其累加即可：
$\sum_{i=1}^Nn_i\eta y_i x_i = \sum_{i=1}^N\alpha_i y_i x_i \\ b = \sum_{i=1}^Nn_i\eta y_i = \sum_{i=1}^N\alpha_i y_i$
这样我们就实现了将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式

输入：
$T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}\\ x_i\in \mathcal{X}=\bf{R}^n , y_i\in \mathcal{Y} =\{-1,+1\}, i=1,2,\dots, N; 0< \eta \leqslant 1$

输出：
$\alpha ,b;\quad\alpha=(\alpha_1,\alpha_2,\cdots,\alpha_N)^T \\f(x)=sign\left(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b\right)\\$

$\alpha \leftarrow 0,b\leftarrow 0$
训练集中选取数据 $x_i,y_i)$
如果 $y_i\left(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+b\right) \leqslant 0$

$\alpha_i\leftarrow \alpha_i+\eta\\ b\leftarrow b+\eta y_i$

转至(2)，直至训练集中没有误分类点

Gram matrix

对偶形式中，训练实例仅以内积的形式出现。

为了方便可预先将训练集中的实例间的内积计算出来并以矩阵的形式存储，这个矩阵就是所谓的Gram矩阵
$G=[x_i\cdot x_j]_{N\times N}$

感知机不能用于异或

现感知机是一种线性分类模型。而异或可以表示为如下形式：

$x_1$	$x_2$	y
0	0	0
0	1	1
1	0	1
1	1	0

在这里插入图片描述

由图可知，这个问题是线性不可分的，所以不能用感知机。

zhong_ddbb

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
感知机模型详解

感知机是二分类的线性分类器，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机将特征空间中的实例划分为正负两类，属于判别模型。感知机模型模型输入空间：X⊆Rn\mathcal X\sube \bf R^nX⊆Rn输出空间：Y={+1,−1}\mathcal Y=\{+1,-1\}Y={+1,−1}决策函数：f(x)=sign(w⋅x+b)f(x)=sign (w\cdot...
复制链接

扫一扫