感知机模型

最新推荐文章于 2024-07-08 04:26:38 发布

随便起个名字问题不大

最新推荐文章于 2024-07-08 04:26:38 发布

阅读量224

点赞数

分类专栏：统计学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45086320/article/details/107852258

版权

统计学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

感知机模型

感知机模型

感知机模型的基本概念

输入控件是n维向量实数空间，输出空间是{-1，+1}，映射函数是
$f(x)=sign(w\cdot x +b)$
w被称为权值，b称为偏置，sign(x)是符号函数。

感知机是一种线性分类模型，属于判别模型(与之对应的是概率分布模型)，

感知机的学习策略

感知机学习前提：数据集的线性可分性

线性可分性定义：给定数据集T={(xi,yi)}_n，xi是n维实数向量，yi是-1或+1，若存在某个超平面S，使得数据集的正实例点和负实例点都被正确的划分到超平面两侧，则称数据集T是线性可分的数据集。

感知机的损失函数

感知机的经验损失最小化策略是误分类点到超平面的距离之和，每个点到平面的距离为
$-\frac{1}{||w||}y_i (w\cdot x_i +b)$
则损失函数为
$-\frac{1}{||w||}\Sigma_{x_i\in M} y_i(w\cdot x_i +b)$
因为w可以都正则化为模为1的向量，所以我们可以去除前面一项，得到的是感知机的损失函数

感知机的学习算法

感知机的学习算法即为求解w和b，使如下最小化问题得到最优解：
$min_{w,b}L(w,b)=-\Sigma_{x_i\in M}y_i (w\cdot x_i +b)$
感知机学习算法是误分类驱动的，我们可以采用随机梯度下降法。具体算法如下：

感知机学习算法：

输入：训练数据集T，学习率η；

输出：w和b

(1)选取初值w0和b0；

(2)选取数据点(xi,yi)

(3)如果被误分类，则更新w和b：
$\leftarrow w+\eta y_i x_i \\b \leftarrow b+\eta y_i$
(4)跳转到第(2)步，知道没有被误分类的数据点

学习算法的收敛性证明

证明：设数据集T是线性可分的，则

(1)存在满足条件的||w||为1的超平面将数据集完全分开，且存在γ>0，使得对i=1,2,…,N
$y_i(\hat{w}_{opt}\cdot \hat{x}_i)=y_i (w_{opt}\cdot x_i +b_{opt})$
(2)令
$max_{1\le i \le N}||\hat{x}_i||$
则感知机算法在训练数据集上误分类次数满足
$k\le (\frac{R}{\gamma})^2$

(1)：由于数据集线性可分，则存在超平面将数据集完全分开，取此超平面并将其模正则化为1，对于有限的i=1,2,…,N
$y_i (\hat{w}_{opt}\cdot x_i )=y_i (w_{opt}\cdot x_i +b_{opt})>0$
所以存在
$\gamma =min_i \{y_i(w_{opt}\cdot x_i +b_{opt})\}$
使得
$y_i (\hat{w}_{opt}\cdot x_i )=y_i (w_{opt}\cdot x_i +b_{opt})\ge \gamma$
(2)不妨设感知机算法从
$\hat{w}_0$
开始，令第k个误分类实例之前的扩充权重向量为
$\hat{w}_{k-1}=(w_{k-1}^T,b_{k-1})^T$
则第k个误分类实例的条件是
$y_i (\hat{w}_{k-1}\cdot x_i )=y_i (w_{k-1}\cdot x_i +b_{k-1})\le 0$
则w和b的更新为：
$w_k \leftarrow w_{k-1}+\eta y_i x_i \\b_k \leftarrow b_{k-1}+\eta y_i$
即
$\hat{w}_k \leftarrow \hat{w}_{k-1}+\eta y_i \hat{x}_i$
则有
$\hat{w}_k \cdot \hat{w}_{opt}=\hat{w}_{k-1} \cdot \hat{w}_{opt}+\eta y_i \hat{x}_i \cdot \hat{w}_{opt}\\\ge \hat{w}_{k-1} \cdot \hat{w}_{opt}+\eta \gamma$
由此可得不等式
$\hat{w}_k \cdot \hat{w}_{opt}\ge\hat{w}_{k-1} \cdot \hat{w}_{opt}+\eta \gamma \ge \cdots \ge k\eta \gamma$
另外
$||\hat{w}_k||^2 =||\hat{w}_{k-1}||^2-2\eta y_i\hat{w}_{k-1}+\eta^2||\hat{x}_i||^2\\\le ||\hat{w}_{k-1}||^2+\eta^2||\hat{x}_i||^2\le\cdots \le k\eta^2R^2$
则有
$k\eta\gamma \le \hat{w}_k \cdot \hat{w}_{opt} \le ||\hat{w}_k||||\hat{w}_{opt}||\le \sqrt{k}\eta R \\k^2\gamma^2 \le kR^2$
所以
$k\le (\frac{R}{\gamma})^2$

学习算法的对偶形式

对偶形式的基本想法是将w和b表示为实例xi和标记yi的线性组合的形式，通过求解系数进而求得w和b。

感知机对偶学习算法：

输入：训练数据集T，学习率η；

输出：α和b；感知机模型为
$sign(\Sigma_{j=1}^N \alpha_j y_j x_j \cdot x + b)$
其中α为n维向量

(1)选取初值α=0和b=0；

(2)选取数据点(xi,yi)

(3)如果被误分类，即
$y_i (\Sigma_{j=1}^N \alpha_j y_j x_j \cdot x + b)$
则更新w和b：
$\alpha \leftarrow \alpha+\eta\\b \leftarrow b+\eta y_i$
yi)

(3)如果被误分类，即
$y_i (\Sigma_{j=1}^N \alpha_j y_j x_j \cdot x + b)$
则更新w和b：
$\alpha \leftarrow \alpha+\eta\\b \leftarrow b+\eta y_i$
(4)跳转到第(2)步，知道没有被误分类的数据点

参考：《统计学习方法》李航

随便起个名字问题不大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
感知机模型

文章目录感知机模型感知机模型的基本概念感知机的学习策略感知机学习前提：数据集的线性可分性感知机的损失函数感知机的学习算法学习算法的收敛性证明学习算法的对偶形式感知机模型感知机模型的基本概念输入控件是n维向量实数空间，输出空间是{-1，+1}，映射函数是f(x)=sign(w⋅x+b)f(x)=sign(w\cdot x +b)f(x)=sign(w⋅x+b)w被称为权值，b称为偏置，sign(x)是符号函数。感知机是一种线性分类模型，属于判别模型(与之对应的是概率分布模型)，感知机的学习策
复制链接

扫一扫