深度学习系列一——优化问题

最新推荐文章于 2024-08-23 22:52:33 发布

珞沫

最新推荐文章于 2024-08-23 22:52:33 发布

阅读量2.3k

点赞数 4

分类专栏： # 深度学习文章标签：深度学习优化问题

本文链接：https://blog.csdn.net/weixin_45666566/article/details/107473051

版权

深度学习专栏收录该内容

10 篇文章 15 订阅

订阅专栏

优化算法

1、优化问题简介
2、存在的挑战
3、优化的实质
4、神经网络优化的改善方法

1、优化问题简介

深度学习（神经网络）的优化是指寻找一个神经网络模型来使得经验（或结构）风险最小化的过程，包括模型选择以及参数学习等。

深度神经网络是一个高度非线性的模型，其风险函数是一个非凸函数，（因此风险最小化即深度学习的优化问题是非凸优化问题。）找到全局最优解比较困难。绝大多数深度学习中的目标函数都很复杂。因此，很多优化问题并不存在解析解，而需要使用基于数值方法的优化算法（eg：SGD）找到近似解。 这类优化算法一般通过不断迭代更新解的数值来找到近似解。

2、存在的挑战

优化问题中的两个挑战：局部最小值和鞍点。这两种情况都会造成梯度接近或变成零，从而使得网络很难继续优化。

低维空间的非凸优化问题：主要是存在一些局部最优点。 采用梯度下降方法时，不合适的参数初始化会导致陷入局部最优点，因此主要的难点是如何选择初始化参数和逃离局部最优点。
高维空间中非凸优化的难点：并不在于如何逃离局部最优点，而是如何逃离鞍点。鞍点（saddle point）是梯度为0，但是在一些维度上是最高点，在另一些维度上是最低点。

(a)、局部最小值

绝大多数深度学习的目标函数有若干局部最优值。当一个优化问题的数值解在局部最优解附近时，由于梯度接近或变成零，最终得到的数值解可能只令目标函数局部最小化而非全局最小化。

例子：
对于目标函数 $f (x)$ ，如果 $f (x)$ 在 $x$ 上的值比在 $x$ 邻近的其他点的值更小，那么 $f (x)$ 可能是一个局部最小值（local minimum）。如果 $f (x)$ 在 $x$ 上的值是目标函数在整个定义域上的最小值，那么 $f (x)$ 是全局最小值（global minimum）。

举个例子，给定函数

$\cdot \text{cos}(\pi x), \qquad -1.0 \leq x \leq 2.0,$

我们可以大致找出该函数的局部最小值和全局最小值的位置。需要注意的是，图中箭头所指示的只是大致位置。
在这里插入图片描述

【代码实现】

%matplotlib inline
import sys
sys.path.append('E:\d2lzh_pytorch')#加上d2lzh_pytorch的路径
import d2lzh_pytorch as d2l
from mpl_toolkits import mplot3d#三维画图
import numpy as np

def f(x):
    return x * np.cos(np.pi * x)

d2l.set_figsize((4.5, 2.5))
x = np.arange(-1.0, 2.0, 0.1)
fig, = d2l.plt.plot(x, f(x))  # 逗号表示只取返回列表中的第一个元素
fig.axes.annotate('local minimum', xy=(-0.3, -0.25), xytext=(-0.77, -1.0),
                  arrowprops=dict(arrowstyle='->'))
fig.axes.annotate('global minimum', xy=(1.1, -0.95), xytext=(0.6, 0.8),
                  arrowprops=dict(arrowstyle='->'))
d2l.plt.xlabel('x')
d2l.plt.ylabel('f(x)');

(b)、鞍点

鞍点（saddle point）是梯度为0，但是在一些维度上是最高点，在另一些维度上是最低点。

在这里插入图片描述

【代码实现】
图一：

x, y = np.mgrid[-1: 1: 31j, -1: 1: 31j]
z = x**2 - y**2

ax = d2l.plt.figure().add_subplot(111, projection='3d')
ax.plot_wireframe(x, y, z, **{'rstride': 2, 'cstride': 2})
ax.plot([0], [0], [0], 'rx')
ticks = [-1,  0, 1]
d2l.plt.xticks(ticks)
d2l.plt.yticks(ticks)
ax.set_zticks(ticks)
d2l.plt.xlabel('x')
d2l.plt.ylabel('y');

图二：

x = np.arange(-2.0, 2.0, 0.1)
fig, = d2l.plt.plot(x, x**3)
fig.axes.annotate('saddle point', xy=(0, -0.2), xytext=(-0.52, -5.0),
                  arrowprops=dict(arrowstyle='->'))
d2l.plt.xlabel('x')
d2l.plt.ylabel('f(x)');

鞍点导致梯度接近或变成零，从而导致梯度消失。
在高维空间中，大部分驻点（梯度为0的点）都是鞍点
梯度接近或变成零可能是由于当前解在局部最优解附近在鞍点附近所造成的。由于大多数深度学习模型参数都是高维的，因此，目标函数的鞍点往往比局部最小值更常见。
基于梯度下降的优化方法会在鞍点附近接近于停滞，很难从这些鞍点中逃离。通过在梯度下降方向上引入随机性，可以有效的逃离鞍点。因此，随机梯度下降对于高维空间中的非凸优化问题非常重要。