Datawhale X 李宏毅苹果书AI夏令营 Task 2 学习笔记

《深度学习详解》笔记 - 3.3 自适应学习率

摘要

自适应学习率是优化深度学习模型过程中重要的技术,它能根据梯度的变化自动调整学习率,从而提高训练效率。Task 2总结了自适应学习率的概念、主要方法(包括AdaGrad、RMSProp和Adam),并探讨了学习率调度策略的应用,以解决训练中的各种问题,如梯度震荡和训练停滞。

自适应学习率的概念

在深度学习模型的训练过程中,学习率的选择至关重要。学习率过大可能导致参数在误差表面上震荡,难以收敛到最优解;学习率过小则可能导致训练时间过长,甚至陷入局部最小值。自适应学习率方法旨在根据梯度的变化,自动调整每个参数的学习率,从而在不同的训练阶段或不同的参数上采用最合适的步伐。

主要自适应学习率方法
  • AdaGrad: 通过对过去梯度的累积来调整学习率,对于梯度较大的方向,学习率会减小;对于梯度较小的方向,学习率会增大。适用于稀疏数据的训练。
  • RMSProp: 作为AdaGrad的改进,RMSProp引入了衰减系数,使得更新过程中对近期梯度的影响更大,解决了AdaGrad在后期学习率过小的问题。
  • Adam: 结合了动量法和RMSProp的优点,既能自适应调整学习率,又考虑了梯度的动量效应,是目前最常用的优化器之一。
学习率调度策略

即使采用了自适应学习率,仍然可能遇到训练中学习率不合适的情况。学习率调度策略通过动态调整学习率来应对这些问题,常见的调度策略包括学习率衰减和预热策略。学习率衰减可以有效防止在训练后期出现学习率过大引起的震荡,而预热策略则允许在训练初期使用较小的学习率,以收集足够的梯度信息后再逐渐增大学习率,从而提高训练效果。

《深度学习详解》笔记 - 3.6 分类

摘要

分类与回归是深度学习中两类常见的问题。Task2.2 详细探讨了分类问题及其与回归的关系,介绍了带有softmax函数的分类方法,并深入探讨了分类损失函数,如均方误差和交叉熵的选择及其对优化过程的影响。

分类与回归的关系

回归问题是输入一个向量 x,输出 y_hat,目标是使 y_hat 尽可能接近标签 y。在分类问题中,同样输入 x,但输出的 y_hat 是一个标量,其值与正确类别的编号越接近越好。然而,用数字表示类别会有一些问题,特别是当类之间没有特定关系时。这种情况下,独热向量是更常见的表示方法,能够避免类之间距离的误解。

带有softmax的分类

在分类问题中,输入 x 经过一系列变换后得到 y_hat,为了将 y_hat 转换为概率分布,通常会使用softmax函数。softmax的作用是将任意实数值转换为0到1之间的概率值,并且这些概率值的和为1。对于二分类问题,softmax等价于sigmoid函数。

分类损失

分类损失用于衡量预测结果与实际标签之间的差异。常见的损失函数包括均方误差MSE和交叉熵。均方误差在损失大的区域通常较为平坦,梯度较小,不利于优化。相比之下,交叉熵在分类问题中更为常用,因为它能更有效地引导模型参数的更新,使优化过程更加顺利。

Task2.3(实践任务):HW3(CNN)卷积神经网络-图像分类

我才知道pip install sklearn是错误的,应该pip install scikit-learn......

  • 9
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值