统计学习方法-2(感知机)

ww要努力呀

已于 2022-10-09 11:51:50 修改

阅读量113

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-10-08 16:03:14 首次发布

本文链接：https://blog.csdn.net/wwang_123/article/details/127192546

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

感知机模型
感知机学习策略
感知机学习算法

感知机：

是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取+1和-1。
旨在求出将训练数据进行线性划分的分离超平面
感知机学习算法具有简单而易于实现的优点，分为原始形式和对偶形式

感知机模型

感知机： $f (x) = s i g n (w \cdot x + b)$
– $w 和 b$ 为感知机模型参数， $w\epsilon R^{n}$ 叫做权值或权值向量， $b\epsilon R$ 叫做偏置， $w \cdot x$ 表示 $w$ 和 $x$ 的内积， $s i g n$ 是符号函数：
– $sign(x)=\left\{\begin{matrix} +1, & x\geq 0 \\ -1, & x< 0 \\ \end{matrix}\right.$
几何解释：线性方程 $w \cdot x + b = 0$ 对应于特征空间中的一个超平面S，其中 $w$ 是超平面的法向量， $b$ 是超平面的截距。这个超平面将特征空间划分为两个部分，位于两部分的点（特征向量）分别被分为正、负两类。因此，超平面S称为分离超平面。

感知机学习策略

数据集的线性可分性

给定一个数据集T，如果存在某个超平面S能够将数据集的正负实例点完全正确地划分到超平面的两侧，即对所有 $y_{i}=+1$ 的实例i，有 $w \cdot x + b > 0$ ，对所有 $y_{i}=-1$ 的实例i，有 $w \cdot x + b < 0$ ，则称数据集T为线性可分数据集；否则，称数据集T线性不可分。

感知机学习策略

为找到超平面，即确定感知机模型参数 $w, b$ ，需要确定一个学习策略，即定义损失函数并将损失函数最小化

损失函数选择一：误分类点的总数，这样的损失函数不是参数 $w, b$ 的连续可导函数，不易优化
损失函数选择二：误分类点到超平面S的总距离

输入空间中任一点 $x_{0}$ 到超平面S的距离：

$\frac{1}{\left\|w \right\|}|w\cdot x+b|$
$\left\|w\right\|$ 是 $w$ 的 $L_{2}$ 范数

误分类点 $x_{i}$ 到超平面的距离：

$-\frac{1}{\left\|w \right\|}y_{i}|w\cdot x+b|$

假设超平面的误分类点集合为M，那么所有误分类点到拆排名的总距离：

$-\frac{1}{\left\|w \right\|}\sum_{x_{i}\epsilon M} y_{i}|w\cdot x+b|$
不考虑 $\frac{1}{\left\|w \right\|}$ ，就得到了感知机学习的损失函数

$L(w,b)=-\sum_{x_{i}\epsilon M}y_{i}(w·x+b)$

这个损失函数就是感知机学习的经验风险函数
在假设空间中选取使上述损失函数式最小的模型参数 $w, b$ ，即感知机模型

感知机学习算法

感知机学习问题转化为求解损失函数式最小化问题，最优化的方法是随机梯度下降法

感知机学习算法的原始形式

采用随机梯度下降法

首先，任意选取一个超平面 $w_{0},b_{0}$ ，然后用随机梯度下降法不断地极小化目标函数。

极小化过程不是一次使M中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降

在这里插入图片描述
随机选取一个误分类点 $x_{i},y_{i})$ ，对 $w, b$ 进行更新：

在这里插入图片描述
$\eta(0< \eta \leq 1)$ 是步长，在统计学习中又被称为学习率。

算法的收敛性证明

略

感知机学习算法的对偶形式

基本想法：将 $w, b$ 表示为实例 $x_{i}$ 和标记 $y_{i}$ 的线性组合形式，通过求解其系数而得到 $w, b$ 。

假设初始值 $w_{0},b_{0}$ 都为0，设修改n次， $w, b$ 关于 $x_{i},y_{i})$ 的增量分别是 $\alpha_{i}y_{i}x_{i}和\alpha_{i}y_{i}$ ，这里 $\alpha_{i} = n_{i}\eta$