感知机学习笔记

最新推荐文章于 2022-03-18 22:13:29 发布

wendyat163

最新推荐文章于 2022-03-18 22:13:29 发布

阅读量229

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wendyat163/article/details/81607792

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

“读书百遍，其义自现“————《三国志·魏志·董遇传》

再读李航老师的《统计学习方法》,上一次没看懂的地方，这次居然豁然开朗。看来，书果然是要重复读的。
从这篇开始，将陆续记录《统计学习方法》的读书笔记，希望再次加深印象和理解，如果能给同道带来一些帮助，则是更好。
进入主题吧。
先回顾一下统计学习方法三要素：模型、策略、算法。（放在这里做定海神针）
对于感知机来说，这三个要素分别是：
—- 模型：f(x) = sign( $w\cdot x$ +b)，是线性分类模型。其中sign(x)是符号函数，当 $x \geqslant0时，其值为+1，当x<0时，其值为-1。模型的几何解释：w\cdot x+b=0$ 是将正负两类样本分离的超平面。
—- 策略：找到使（经验）损失函数：L(w,b) = $-\sum_{i=0}^M{y_i(w\cdot x_i + b)}$ 极小化的w,b，其中M为误分类点的个数。损失函数由误分类点到分离超平面的总距离获得。
—- 算法：随机梯度下降法，包括原始形式和对偶形式。
原始形式：
由策略中的损失函数得： $\nabla_w {L(w,b)}$ = $-\sum_{i=0}^M{y_ix_i}$ ， $\nabla_b {L(w,b)}$ = $-\sum_{i=0}^M yi$ ，其中M为误分类点的个数。随机选取一个误分类点（ $x_i,y_i$ ），对w，b进行更新：
w $\leftarrow$ w+ηyixi，b $\leftarrow$ b+ηyi
伪代码：
输入：训练集和学习率（详细内容略，参考教材）
输出：w,b; 感知机模型 $f(x)=sign(w\cdot x+b)$
1）选取初值， $w_0，b_0$ （可设置为0，但是在神经网络中，w的初始值不能设置为0，会造成隐藏层计算的都是相同的内容，失去意义。详參吴恩达深度学习课程）
2）选取数据 $（x_i，y_i）$
3）将数据代入模型，如果 $y_i(w\cdot x_i+b)<0$ ，即为误分类点，更新w,b
w $\leftarrow$ w+ηyixi，b $\leftarrow$ b+ηyi
4）转至2），直到训练集中没有误分类点。

对偶形式：
其基本想法是把w，b用实例 $x_i,y_i$ 表示出来。假设其初始值均为0。根据w，b的更新规则：
$w\leftarrow w+ηy_ix_i，b\leftarrow b+ηy_i$
误分类点 $（x_i,y_i）$ 经过ni次w、b的更新，得以正确分类，则此时：
$w=w_0+n_iηy_ix_i=n_iηy_ix_i，b=b_0+n_iηy_i=n_iηy_i$
$设n_iη = α_i，则 w=α_iy_ix_i，b=α_iy_i$
能将所有数据正常划分的w，b则表示为：
$w=\sum_{i=1}^N α_iy_ix_i，b=\sum_{i=1}^Nα_iy_i（N为训练集样本个数）$
伪代码：
输入：训练集和学习率（详细内容略，参考教材）
输出：α,b; 感知机模型f(x)=sign( $\sum_{j=1}^N {α_jy_jx_j}\cdot x+b)（N为训练集样本个数）$
1）初值 $w_0，b_0设置为0$ .
2）选取数据 $（x_i，y_i）$
3）将数据代入模型，如果 $y_i(\sum_{j=1}^N α_jy_jx_j.x_i+b)<0$ ，即为误分类点，更新 $α_i$ (注意这里的角标是i，不是j。即只更新当前样本对应的α),b：
$αi\leftarrow α_i+η（解释：α_i=n_iη，那么自然是更新一次，就加一次η），b\leftarrow b+ηy_i$
4）转至2），直到训练集中没有误分类点。

下面是关于书中内容的思考：
1. 输入空间中任一点到分离超平面的距离怎么计算？
这里写图片描述

这里有一点要注意，为了方便书写，用 $x_1，x_2$ 表示任一点的两个分量，有点不合规矩。正确的书写方法是图上两个坐标轴的标示方法。不过暂且就这样了。由于误分类点的标签y与 $（w\cdot x+b）$ 的符号肯定相反，即其乘积为 $-|w\cdot x+b|$ ，因此，误分类点到超平面的距离为 $[-y(w\cdot x+b)]/||w||$ 。将所有误分类点到超平面的距离相加，并且不再考虑 $\frac1{||w||}$ ，即得损失函数。

2. 算法收敛性证明（原始模型，前提是数据集线性可分）
因为虽然书上的证明很完美，但自愧没有那么好的脑回路，不明白为什么老师就能想到该如此如此证明呢，所以本部分主要采取分析的推理方法，从结论倒推。
基本思路是证明经过有限次迭代（假设为k次），可以找到能将训练集数据完全正确划分的分离超平面及感知机模型。即证明k会小于等于一个数。所以我们需要构造一个不等式和一个数。在向量运算中，最明显的不等式就是比较模的大小了。又鉴于模的计算涉及开方，为简化，我们直接就比较模的平方了。那么这个数怎么构造呢？k肯定是跟w、b的迭代有关的，而我们知道我们可以把b并入到向量w中生成 $\hat w$ ，把1并入 $x中生成\hat x$ , $\hat w\cdot \hat x = w\cdot x+b$ 。那么我们根据 $\hat w$ 的更新公式来看看第k次 $\hat ||w||$ 的情况吧：
$||\hat w_k|| ^2= ||\hat w_{k-1}+ηy_i\hat x_i||^2 = ||\hat w_{k-1}||^2+||ηy_i\hat x_i||^2+2\eta y_i \hat x_i \cdot \hat w_{k-1}$
由于 $x_i,y_i$ 是误分类点，所以 $2\eta y_i \hat x_i \cdot \hat w_{k-1}\leqslant 0$ ，由上式得出
$||\hat w_k|| ^2\leqslant ||\hat w_{k-1}||^2+||ηy_i\hat x_i||^2$
由于 $y_i$ 是+1或者-1， $\eta$ 是标量，因此 $||ηy_i\hat x_i||^2=\eta ^2||x_i||^2$ ，由上式得出：
$||\hat w_k|| ^2\leqslant ||\hat w_{k-1}||^2+η^2||\hat x_i||^2$
假设 $R = max_{1\leqslant i\leqslant N}||x_i||$ ，则由上式有：
$||\hat w_k|| ^2\leqslant ||\hat w_{k-1}||^2+η^2R^2$
同理：
$||\hat w_{k-1}|| ^2\leqslant ||\hat w_{k-2}||^2+η^2R^2$
则有：
$||\hat w_{k}|| ^2\leqslant ||\hat w_{k-2}||^2+2η^2R^2$
继续递推得：
$||\hat w_{k}|| ^2\leqslant ||\hat w_{0}||^2+kη^2R^2$
我们将权重初始化为0，即 $ŵ_0=0$ ，则有：
$||\hat w_{k}|| ^2\leqslant kη^2R^2$
不等式的构造到这里算是完成了一半，因为 $||ŵ_k||^2$ 并不确定。我们还需要构造另一半，以 $||ŵ_k||^2$ 或 $||ŵ_k||$ 为桥，即” $k的表达式"\leqslant ||ŵ_ k||^2$ 或 $||ŵ_k||$ ，其中k的次数要高，系数要保证不等号的方向。
向量计算中另一个常见的可以比较大小的量是向量点乘。而我们又知道，向量点乘 $\leqslant$ 向量模的乘积。如果能构造出一个“k“的表达式小于等于 $ŵ_k$ 与另一个向量的点乘是再好不过的。这另一个向量该选谁呢？我们暂且取向量z，与 $ŵ_k$ 同维。将 $ŵ_k$ 迭代（这样才能出现k的表达式）：
$ŵ_k \cdot z = ŵ_{k-1} \cdot z + \eta y_i\hat x_i \cdot z$
鉴于我们希望 $ŵ_k \cdot z$ 是大于等于一个“k的表达式“的，那么当然 $\eta y_i\hat x_i \cdot z$ 恒大于某个数就好了。而对于有限的数据集， $y_i\hat x_i \cdot z$ （考虑到另一半不等式中有 $\eta$ ，我们这一半最好也有，以便于约分，因此把它撇出去，不放在这个整体里考虑）当然存在最小值，我们不妨叫它 $\gamma$ 。则有：
$ŵ_k \cdot z = ŵ_{k-1} \cdot z + \eta y_i\hat x_i \cdot z \geqslant ŵ_{k-1} \cdot z + \eta \gamma\geqslant ŵ_{k-2} \cdot z +2 \eta \gamma...递推...\geqslant ŵ_{0} \cdot z + k\eta \gamma = k\eta \gamma（注：\hat w_0 = 0）$
又因为 $ŵ_k \cdot z \leqslant ||\hat w_k|| ||z||$ ，要将各不等式连起来，显然令z的模为1是最方便的，有：
$k\eta \gamma \leqslant ŵ_k \cdot z \leqslant ||\hat w_k|| \leqslant \eta R \sqrt k$
公式两边同时除以 $\eta \gamma \sqrt k$ ，等等， $\eta，\sqrt k$ 都是大于0的，可 $\gamma$ 是什么符号呢？这可决定着能不能除，以及除之后不等号的方向问题。若要得出想要的结论，即k小于等于一个正数，我们需要 $\gamma > 0$ ，那么 $y_i\hat x_i \cdot z$ 就都得大于0，即z需要是能将所有样本正确分类的分类超平面的 $\hat w$ ，我们叫它 $\hat w_{opt}$ ，取optimum，即最优之意。问题是它真的存在吗？答：既然数据集线性可分，那么它一定存在。还有一个问题，它的模是1吗？答：它的模可以是1，相关证明见备注2。
因此，我们最后证明的结论就是：
$k\leqslant {(\frac {R} {\gamma})}^2$
<正文终于写完了>

备注1：证明两个向量的点乘小于等于向量模的乘积。
设两个向量 $\vec a, \vec b$ 分别为 $[a_1,a_2]^T，[b_1,b_2]^T$ ，则 $\vec a \cdot \vec b = a_1b_1+a_2b_2$ ， $||\vec a|| ||\vec b|| = \sqrt {(a_1^2 + a_2^2)(b_1^2 + b_2^2)} = \sqrt {a_1^2 b_1^2+a_1^2b_2^2+ a_2^2b_1^2+a_2^2b_2^2} = \sqrt{ (a_1b_1+a_2b_2)^2+(a_1b_2-a_2b_1)^2}\geqslant a_1b_1+b_2b_2$
备注2：证明方程ax+by+c=0（ $a \ne 0，b \ne 0$ ）的系数向量 $[a,b,c]^T$ 的模缩为1，只要方向保持不变，其所确定的直线不变。
该直线必经过（0， $-\frac {c}{b}）,（-\frac {c}{a},0）两点。设a_2+b_2+c_2 = C_2(C > 0)$ ，直线方程两边同时除以C，得 $\frac {ax+by+c}{C} = 0$ ，则系数向量模为 $\frac {a_2+b_2+c_2}{C^2} = 1$ ，而直线仍经过$（0，-\frac {c}{b}）,（-\frac {c}{a},0）两点。由两点确定一条直线，得出直线不变。
<备注也终于写完了>

wendyat163

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
感知机学习笔记

“读书百遍，其义自现“————《三国志·魏志·董遇传》再读李航老师的《统计学习方法》,上一次没看懂的地方，这次居然豁然开朗。看来，书果然是要重复读的。从这篇开始，将陆续记录《统计学习方法》的读书笔记，希望再次加深印象和理解，如果能给同道带来一些帮助，则是更好。进入主题吧。先回顾一下统计学习方法三要素：模型、策略、算法。（放在这里做定海神针）每一个模型我们都是按这三要素来学习思考的。对感...
复制链接

扫一扫