从感知机到 SVM，再到深度学习（二）

最新推荐文章于 2024-01-08 01:27:39 发布

xinchen1102

最新推荐文章于 2024-01-08 01:27:39 发布

阅读量508

点赞数

分类专栏：机器学习感知机 logistic 回归 SVM KKT

本文链接：https://blog.csdn.net/xinchen1102/article/details/79777538

版权

这篇博客介绍了从感知机到SVM的优化过程，探讨了无约束优化问题和极值点求解，提到了梯度下降法和坐标下降法。还简单触及了神经网络的结构，特别是其拟合能力和隐藏层的作用。最后提到了损失函数和调优作为后续话题。

摘要由CSDN通过智能技术生成

在第一篇中已经得到了最优间隔分类器的目标函数：
$KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ max_{\gamma,w,…$
接下来的任务就是要求解这个目标函数了。为了求解这个，很多优化知识是避不开的，所以先跑跑题，写一下相关的数学知识吧~

首先从无约束的优化问题讲起，一般就是要使一个表达式取到最小值：
$\quad f(x)$
如果问题是 $\quad f(x)$ 也可以通过取反转化为求最小值 $\quad-f(x)$ ，这个是一个习惯。对于这类问题最简单的就是直接对它的每一个变量求导，然后让导数为零就可以了。

极值点示意图所以在极值点处一定满足 $\frac {df(x)}{dx}=0$（只是必要条件，比如 $f(x)=x^3$ 在 $x=0$ 处就不是极值点），然后对它进行求解，再代入验证是否真的是极值点就行了。对于有些问题可以直接通过这种方法求出解析解（如最小二乘法）。但是也有很多问题解不出来或者很难解，所以就需要梯度下降法、牛顿法、坐标下降法之类的数值迭代算法了（感知机、logistic 回归中用到）。对于这些迭代算法就像下面这张图一样，我们希望找到其中的最小值。一个比较直观的想法是先找一个起点，然后不断向最低点靠近。就先把一个小球放到一个碗里一样。

迭代算法一开始要找一个起始点，然后确定走的方向和距离，最后还要知道什么时候停止。这三步中最难的应该是确定走的方向。走的慢点还可以接受，要是方向错了就找不到最小值了~。所以走的距离可以简单的设为一个比较小的值。起始点可以随机选一个 $(x_0,y_0)$。关键是方向，可以选择 $(x_0,y_0)$ 处的梯度的反方向，这是函数在这个点下降最快的方向（原因可以看[知乎](https://www.zhihu.com/question/36301367)中忆臻的回答）。它是一个向量，然后它的大小就是走的距离，为了防止太大而走过头，导致不断在最小值附近震荡，需要乘上一个比较小的值（称为学习率），最终的停止条件就是梯度的大小很接近于 0（在极值点处的梯度大小就是 0）就行了。这种方法依靠梯度确定下降方向的方法叫做梯度下降法。对 $f(x)$ 求极小值的流程就是：