【统计学习方法读书笔记】（二）感知机

最新推荐文章于 2024-07-25 08:20:58 发布

Y.G Bingo

最新推荐文章于 2024-07-25 08:20:58 发布

阅读量153

点赞数

分类专栏：统计学习方法文章标签：机器学习

本文链接：https://blog.csdn.net/yanhuibin315/article/details/104953269

版权

统计学习方法专栏收录该内容

4 篇文章 0 订阅

订阅专栏

这里引用一张康奈尔大学老师的课件图片，如图所示，感知机的目的就是找寻一条直线(蓝色)，可以把正样本集(绿色)、负样本集(红色)分开

1、什么是符号函数 $s i g n (x)$

$sign(x)=\left\{\begin{matrix} +1, x\geqslant 0 \\ -1, x<0 \end{matrix}\right.$

2、感知机的损失函数

$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$
其中 $w, b$ 是感知机的参数， $w\in \bold R^n$ 是权重， $b\in \bold R$ 是偏置量， $M$ 为误分类点的集合，当没有误分类点时，损失函数为 $0$ ；误分类点越少，误分类点离超平面越近，损失函数越小。

3、感知机的学习算法（即调参的方法）

我们的目标是想建立线性函数，将正样本集与负样本集进行合理的区分，根据损失函数，当损失函数为0是，调参结束，即转换为求损失函数极小化问题： $\underset{w,b}{min}=-\sum_{x_i\in M}{y_i(w\cdot x_i+b)}$ 这里可以采用**随机梯度下降法(SGD)**计算：

感知机学习算法的原始形式：
输入：训练数据集 $T=\{(x_1, y_1),(x_2, y_2),(x_3,y_3),...,(x_N,y_N)\}$ ，其中 $x_i\in X=\bold R^n,y_i\in Y=\{-1,+1\}, i=1,2,...,N$ ；学习率 $\eta(0<\eta<1)$ ；
输出： $w, b$ ；感知机模型 $f(x)=sign(w\cdot x+b)$
(1) 选取初始 $w_0,b_0$ ;
(2) 在训练集中随机选取数据 $x_i, y_i)$ ;
(3) 如果 $y_i(w\cdot x_i+b)\leqslant 0$ , $w\gets w+\eta y_ix_i$ $b\gets b+\eta y_i$
(4) 转至(2)，直到训练集中没有误分类点。

上述计算 $w, b$ 的过程是通过 $w, b$ 的梯度得来的： $\nabla_wL(w,b)=-\sum_{x_i\in M}{y_ix_i}$ $\nabla_bL(w,b)=-\sum_{x_i\in M}{y_i}$

4、已知正样本集 $\bold X_+=\{(3,4)^T,(4,3)^T\}$ 负样本集 $\bold X_-=\{(1,2)^T\}$ ，适用感知机学习算法的原始形式求感知机模型?

构建最优化问题： $\underset{w,b}{min}L(w,b)=-\sum_{x_i\in M}{y_i(w\cdot x_i+b)}$
可以按照上述的原始感知机学习算法求解上述公式：
(1) 取初始值 $w_0=0, b_0=0, \eta=1$
(2) 将样本集分别代入公式，发现 $x_1=(3,4)^T$ 代入公式 $y(w\cdot x_i+b)$ 后结果为0，不满足正样本定义，需要更新 $w, b$ $w_1=w_0+y_1x_1=(3,4)^T$ $b_1=b_0+y_1=1$ 注：因为 $x_1$ 是正样本，所以 $y_1=1$ ,同理， $y_2=1, y_3=-1$
(3) 再次计算，发现 $x_1,x_2$ 均满足 $y(w\cdot x_i+b)>0$ ，但是 $x_3$ 不满足这个条件，需要再次更新 $w, b$ ，得： $w_2=w_1+y_3x_3=(2,2)^T$ $b_2=b_0+y_3=0$ 由此迭代下去，直到对于 $x_1,x_2,x_3$ 均满足 $y(w\cdot x_i+b)>0$ 为止

迭代次数	误分类点	$w$	$b$	$w x + b$
0		0	0	0
1	$x_1$	$3,4)^T$	1	$3x^{(1)}+4x^{(2)}+1$
2	$x_3$	$2,2)^T$	0	$2x^{(1)}+2x^{(2)}$
3	$x_3$	$1,0)^T$	-1	$x^{(1)}-1$
4	$x_3$	$0,-2)^T$	-2	$2x^{(2)}-2$
5	$x_1$	$3,2)^T$	-1	$3x^{(1)}+2x^{(2)}-1$
6	$x_3$	$2,0)^T$	-2	$2x^{(1)}-2$
7	$x_3$	$1,-2)^T$	-3	$x^{(1)}-2x^{(2)}-3$
8	$x_1$	$4,2)^T$	-2	$4x^{(1)}+2x^{(2)}-2$
9	$x_3$	$3,0)^T$	-3	$3x^{(1)}-3$
10	$x_3$	$2,-2)^T$	-4	$2x^{(1)}-2x^{(2)}-4$
11	$x_1$	$5,2)^T$	-3	$5x^{(1)}+2x^{(2)}-3$
12	$x_3$	$4,0)^T$	-4	$4x^{(1)}-4$
13	$x_3$	$3,-2)^T$	-5	$3x^{(1)}-2x^{(2)}-5$
14	$x_1$	$6,2)^T$	-4	$6x^{(1)}+2x^{(2)}-4$
15	$x_3$	$5,0)^T$	-5	$5x^{(1)}-5$
16	$x_3$	$4,-2)^T$	-6	$4x^{(1)}-2x^{(2)}-6$
17	$x_1$	$7,2)^T$	-5	$7x^{(1)}+2x^{(2)}-5$
18	$x_3$	$6,0)^T$	-6	$6x^{(1)}-6$
19	$x_3$	$5,-2)^T$	-7	$5x^{(1)}-2x^{(2)}-7$
20	$x_1$	$8,2)^T$	-6	$8x^{(1)}+2x^{(2)}-6$
21	$x_3$	$7,0)^T$	-7	$7x^{(1)}-7$
22	$x_3$	$6,-2)^T$	-8	$6x^{(1)}-2x^{(2)}-8$

注：想不到和书上的例子不同差距居然这么大，收敛的好慢~
当迭代到22次时， $x_1,x_2,x_3$ 均满足 $y(w\cdot x_i+b)>0$ ，所以得到：

分离超平面： $6x^{(1)}-2x^{(2)}-8=0$
感知机模型为： $f(x)=sign(6x^{(1)}-2x^{(2)}-8)$

5、验证感知机算法的收敛性

6、什么是对偶形式？简述感知机学习算法的对偶形式

7、验证感知机为什么不能表示异或函数(XOR)?

8、什么是凸壳函数？

设集合 $S\subset \bold R^n$ 是由 $\bold R^n$ 中的 $k$ 个点所组成的集合，即 $S=\{x_1,x_2,...,x_k\}.$ 定义 $S$ 的凸壳 $c o n v (S)$ 为 $conv(S)=\bigg\{x=\sum_{i=1}^{k}{\lambda_ix_i}\bigg|\sum_{i=1}^k{\lambda_i=1, \lambda_i \geqslant0,i=1,2,...,k}\bigg\}$

Y.G Bingo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【统计学习方法读书笔记】（二）感知机

这里引用一张康奈尔大学老师的课件图片，如图所示，感知机的目的就是找寻一条直线(蓝色)，可以把正样本集(绿色)、负样本集(红色)分开1、什么是符号函数sign(x)sign(x)sign(x)sign(x)={+1,x⩾0−1,x<0sign(x)=\left\{\begin{matrix} +1, x\geqslant 0 \\ -1, x<0 \end{matrix}\ri...
复制链接

扫一扫