神经网络(深度学习)常用的4种最优化方法——SGD、MOMENTUM、ADAGRAD、ADAM

最新推荐文章于 2024-07-09 14:52:31 发布

黄佳俊、

最新推荐文章于 2024-07-09 14:52:31 发布

阅读量1.9k

点赞数 2

分类专栏：人工智能学习文章标签：深度学习神经网络 python

本文链接：https://blog.csdn.net/weixin_48419914/article/details/124902954

版权

人工智能学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本文介绍了四种常用的深度学习优化算法：随机梯度下降(SGD)、动量(Momentum)、AdaGrad和Adam。每种算法都有其独特特点，如SGD简单但可能收敛慢，Momentum引入了动量项加速收敛，AdaGrad通过自适应学习率调整，而Adam结合了Momentum和AdaGrad的优势。这些方法在不同问题中表现各异，没有万能的最佳选择，实际应用中需根据问题特性选择合适的优化算法。

摘要由CSDN通过智能技术生成

、SGD

描述

随机梯度下降法(stochastic gradient descent)，策略是朝着当前所在位置的坡度最大的方向前进。

PYTHON类

class SGD:
	def __init__(self, lr=0.01):
		self.lr = lr
        
	def update(self, params, grads):
		for key in params.keys():
			params[key] -= self.lr * grads[key]

二、MOMENTUM

描述

“动量‘，参照小球在碗中滚动的物理规则进行移动。

PYTHON类

class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def updade(self, params, grads):
        if self.v is None:
            self.v = {}
            for key, val in params.items():
                self.v[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.v[key] = self.momentum * self.v[ley] - self.lr * grads[key]
            params[key] += self.v[key]

三、ADAGRAD

描述

Ada来自英文单词Adaptive，即“适当的”的意思；AdaGrad会为参数的每个元素适当地调整更新步伐(学习率)，即学习率衰减，随着学习的进行，使学习率逐渐减小，一开始“多”学，然后逐渐“少”学。

PYTHON类

class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)

四、ADAM

描述

融合了Momentum和AdaGrad的方法。

PYTHON类

class Adam:

    """Adam (http://arxiv.org/abs/1412.6980v8)"""

    def __init__(self, lr=0.001, beta1=0.9, beta2=0.999):
        self.lr = lr
        self.beta1 = beta1
        self.beta2 = beta2
        self.iter = 0
        self.m = None
        self.v = None
        
    def update(self, params, grads):
        if self.m is None:
            self.m, self.v = {}, {}
            for key, val in params.items():
                self.m[key] = np.zeros_like(val)
                self.v[key] = np.zeros_like(val)
        
        self.iter += 1
        lr_t  = self.lr * np.sqrt(1.0 - self.beta2**self.iter) / (1.0 self.beta1**self.iter)         
        
        for key in params.keys():
            #self.m[key] = self.beta1*self.m[key] + (1-self.beta1)*grads[key]
            #self.v[key] = self.beta2*self.v[key] + (1-self.beta2)*(grads[key]**2)
            self.m[key] += (1 - self.beta1) * (grads[key] - self.m[key])
            self.v[key] += (1 - self.beta2) * (grads[key]**2 - self.v[key])
            
            params[key] -= lr_t * self.m[key] / (np.sqrt(self.v[key]) + 1e-7)
            
            #unbias_m += (1 - self.beta1) * (grads[key] - self.m[key])  # correct bias
            #unbisa_b += (1 - self.beta2) * (grads[key]*grads[key] - self.v[key])  # correct bias
            #params[key] += self.lr * unbias_m / (np.sqrt(unbisa_b) + 1e-7)

四种最优化方法的比较：

1、求 F(X,Y) = (1/20)*X^2 + Y^2 的最小值

2、基于MNIST数据集的更新方法的比较

PS：

（目前）并不存在能在所有问题中都表现良好的方法。这4种方法各有各的特点，都有各自擅长解决的问题和不擅长解决的问题。
很多研究中至今仍在使用SGD。 Momentum和AdaGrad也是值得一试的方法。最近，很多研究人员和技术人员都喜欢用Adam。

黄佳俊、

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
神经网络(深度学习)常用的4种最优化方法——SGD、MOMENTUM、ADAGRAD、ADAM

、SGD描述随机梯度下降法(stochastic gradient descent)，策略是朝着当前所在位置的坡度最大的方向前进。PYTHON类class SGD: def __init__(self, lr=0.01): self.lr = lr def update(self, params, grads): for key in params.keys(): params[key] -= self.lr * grads[key]二、MOM
复制链接

扫一扫

专栏目录