AdaGrad(自适应梯度算法),Adaptive

  • 学习衰减率:
    随着学习的进行,使得学习率逐渐减小。AdaGrad会为参数的每个元素适当的体哦阿正学习率
    在这里插入图片描述

在这里插入图片描述

# coding: utf-8
import numpy as np


class AdaGrad:
    def __init__(self, learning_rate=0.01):
        self.learning_rate = learning_rate
        self.h = None

    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, value in params.items():
                self.h[key] = np.zeros_like(value)

        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.learning_rate * grads[key] / (np.sqrt(self.h[key]) + 1e-07) # 1e-07微小值避免分母为0
  • 12
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
适应学习优化算法是一种优化机器学习模型参数的方法,根据不同的算法思想和原理,可以选择不同的优化算法。本文将对LMS、Adagrad、RMSprop和Adam这四种自适应学习优化算法进行比较研究。 LMS算法(Least Mean Squares)是一种基本的自适应学习算法,其基本思想是通过调整权重的方式来最小化模型预测输出与真实输出之间的均方误差。LMS算法简单易实现,但计算效率较低,容易陷入局部最优解。 Adagrad算法Adaptive Gradient)根据历史梯度累积信息来自适应地调整学习率。它会根据每个参数的梯度进行调整,使历史梯度较小的参数具有较大的学习率,以便更快地收敛。Adagrad适用于稀疏数据集,但在训练过程中会导致学习率不断减小,不利于模型收敛。 RMSprop算法(Root Mean Square Propagation)也是一种根据梯度历史信息自适应调整学习率的算法,但相比于Adagrad,它在学习率更新时引入了一个衰减系数,从而减缓学习率的下降速度。RMSprop相对于Adagrad更有效地解决了学习率不断减小的问题,但可能会受到特定参数化的影响。 Adam算法Adaptive Moment Estimation)是结合了动量优化和RMSprop算法的自适应学习算法。它综合考虑了一阶矩估计(动量)和二阶矩估计(梯度平方的指数加权移动平均)的信息,从而更准确地估计了梯度的变化情况。Adam算法具有良好的性能,在大多数情况下表现优于上述三种算法。 综上所述,LMS、Adagrad、RMSprop和Adam是四种常见的自适应学习优化算法。选择合适的算法应根据具体的应用场景和数据特点来确定,以达到更好的训练效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值