loss scale的理解

最新推荐文章于 2024-11-04 02:03:51 发布

伯纳乌的小草

最新推荐文章于 2024-11-04 02:03:51 发布

阅读量3k

点赞数 3

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/weixin_45850972/article/details/129217166

版权

LossScaling是一种在FP16精度训练中解决数值稳定性问题的技术，通过放大损失并在反向传播时相应缩小梯度，防止因二进制表示误差导致的训练问题。混合精度训练（fp32+fp16）利用这种方法能加快训练速度并减少显存占用，尤其在长时间训练或资源受限的场景下。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近期看代码的时候发现了loss_scale的参数，不知道为什么算loss还需要放缩，在参数说明中，当只有选择了fp16精度的选项时，loss_scale才有效。

查了资料，简单记录一下：
参考：资料

定义：
Loss Scaling
在计算loss时适当放大loss，在优化器更新参数时缩小同样倍数梯度。目前apex支持动态放缩倍数。

思想：
在交易系统中算钱的时候，规范的做法是把金额如1.01元*100之后再做计算，计算完之后再除以100，这样可以避免0.01无法用二进制精确表示造成的舍入误差。

为什么要用？
很多时候训练时间过长，或者显存不够，使用混合精度（fp32+fp16）进行训练可以加快训练速度，减少显存需求空间。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

伯纳乌的小草

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

[nlp] 损失缩放（Loss Scaling）loss sacle

心宝的博客

11-16

1901

具体来说，在计算梯度时，将梯度除以一个称为“loss scale”的缩放因子，然后再进行反向传播和优化器更新。在深度学习中，由于浮点数的精度限制，当模型参数非常大时，会出现数值溢出的问题，这可能会导致模型训练不稳定。在实际使用中，我们可以将缩放因子设置为一个固定的值，例如 10121012，来避免自动计算带来的额外开销。在使用混合精度训练时，损失缩放技术可以更好地缓解舍入误差，提高模型的稳定性。总之，损失缩放是一种非常有用的技术，可以帮助深度学习模型更好地训练和收敛。

Loss下降到0.08时不在下降调整学习率也没用，如何解决？

最新发布

**My Coding Family**

12-24

774

🏆本文收录于专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家！持续更新中，up！up！up！！

参与评论您还未登录，请先登录后发表或查看评论

MindSpore--LossScale

JIAJIA14754545的博客

12-12

1329

概述在混合精度中，会使用float16类型来替代float32类型存储数据，从而达到减少内存和提高计算速度的效果。但是由于float16类型要比float32类型表示的范围小很多，所以当某些参数（比如说梯度）在训练过程中变得很小时，就会发生数据下溢的情况。而LossScale正是为了解决float16类型数据下溢问题的，LossScale的主要思想是在计算loss时，将loss扩大一定的倍数，由于链式法则的存在，梯度也会相应扩大，然后在优化器更新权重时再缩小相应的倍数，从而避免了数据下溢的情况又不影响计

给npu运行模型添加Loss scale

qq_37236149的博客

01-03

828

Loss scale原理主要修改点精度计算中使用float16数据格式数据动态范围降低，造成梯度计算出现浮点溢出，会导致部分参数更新失败。为了保证部分模型训练在混合精度训练过程中收敛，需要配置Loss Scale的方法。原理通过在前向计算所得的loss乘以loss scale系数S，起到在反向梯度计算过程中达到放大梯度的作用，从而最大程度规避浮点计算中较小梯度值无法用FP16表达而出现的溢出问题。在参数梯度聚合之后以及优化器更新参数之前，将聚合后的参数梯度值除以loss scale系数S还原。

损失缩放（Loss Scaling）loss sacle

vivi_cin的博客

11-04

519

近期看代码的时候发现了loss_scale的参数，不知道为什么算loss还需要放缩，在参数说明中，当只有选择了fp16精度的选项时，loss_scale才有效。在交易系统中算钱的时候，规范的做法是把金额如1.01元*100之后再做计算，计算完之后再除以100，这样可以避免0.01无法用二进制精确表示造成的舍入误差。，防止因二进制表示误差导致的训练问题。的高值（如：65536.0000）通常是在启用混合精度训练（Automatic Mixed Precision, AMP）时发生的。度，减少显存需求空间。

Anchor Loss: Modulating Loss Scale based on Prediction Difficulty

Matthew技术小站

06-04

500

一篇比较有意思的文章，用来增强模型对易混淆样本的学习，有别于传统的CE和Focal Loss。文章链接：arxiv code: github why need this 理由很简单，我们在做类似分类任务的时候，模型最终往往都会输出一个概率，我们会在输出的所有类别的概率中挑选其中最大的一个作为模型的输出。大部分情况下这种做法是没有问题的，但对于一些易混淆的任务来说，例如图片分类中一些看着相似但类别不一致的图片，人体姿态估计中两个相对的左右关节，这些都会对模型的输出造成一定的困扰。如文章中图1所示：对于人体

Midas_loss scale and shift invariant loss

03-23

标题"Midas_loss scale and shift invariant loss"涉及到的是深度学习领域中的损失函数优化问题。在机器学习，特别是深度学习中，...因此，深入理解并正确实现"Midas_loss"对于优化模型并解决实际问题具有重要意义。

Scale- and shift-invariant losses

MengYa_Dream的博客

03-23

5645

Scale- and shift-invariant losses 尺度和位移不变的密集损失

Focal Loss 论文阅读理解

qq_40310050的博客

09-07

338

前面还有一篇focal loss 的翻译，但是来不及翻译完晚上就要组会了，但是总算是自己也把这篇论文理解完了。下面是PPT的截图，记录一下。这个是从论文综述《Learning from Imbalanced Data》里面的对于数据不均衡的一个定义，我觉得很不错。这张小猫的图我觉得可以很好地表达难易样本的定义问题，一目了然。 Table1是关于RetinaNet和Focal Loss的一些实验结果。（a）是在交叉熵的基础上加上参数a，a=0.5就表示传统的交叉熵，

ch4_wireless_scale_

10-01

描述“Mobile Radio Propagation (Large-scale Path Loss)”进一步确认了这一点，路径损耗是无线通信中一个核心的概念，它描述了无线信号在传播过程中由于距离、环境和其他因素导致的能量减小。无线通信中的大规模...

MindSpore调优精度之高阶API使用静态LossScale

Kenji_Shinji的博客

10-26

236

而动态更新网络结构中的LossScale正是为了解决float16类型数据下溢问题的，loss scale的主要思想是在计算loss时，将loss扩大一定的倍数，由于链式法则的存在，梯度也会相应扩大，然后在优化器更新权重时再缩小相应的倍数，从而避免了数据下溢的情况又不影响计算结果；在程序进行时，不会改变scale的大小，scale的值由入参loss_scale控制，可以由用户指定，若不指定则取默认值。判断当出现数据溢出时是否执行优化器，如果选择True，则在数据溢出时优化器将不会执行。float数据类型。

【MindSpore易点通】调优精度之高阶API使用动态LossScale

Kenji_Shinji的博客

10-31

528

而动态更新网络结构中的loss scale正是为了解决float16类型数据下溢问题的，loss scale的主要思想是在计算loss时，将loss扩大一定的倍数，由于链式法则的存在，梯度也会相应扩大，然后在优化器更新权重时再缩小相应的倍数，从而避免了数据下溢的情况又不影响计算结果。如果发生了上溢出，则跳过参数更新，并缩小scale的值，入参scale_factor是控制扩大或缩小的步数，scale_window控制没有发生溢出时，最大的连续更新步数。初始化的LossScale，默认值2**24。

NativeScaler()与loss_scaler【本质上是 loss.backward(create_graph=create_graph) 和 optimizer.step()】

Drug discovery

10-04

2万+

源码： class NativeScaler: state_dict_key = "amp_scaler" def __init__(self): self._scaler = torch.cuda.amp.GradScaler() def __call__(self, loss, optimizer, clip_grad=None, clip_mode='norm', parameters=None, create_graph=False):

NativeScaler()与loss_scaler【loss.backward()和 optimizer.step()】

重剑无锋博客

11-19

995

NativeScaler()与loss_scaler【loss.backward()和 optimizer.step()】

MindSpore静态LossScale和动态LossScale的区别

Kenji_Shinji的博客

10-26

703

在训练过程中，如果不发生溢出，在更新scale_window次参数后，会尝试扩大scale的值，如果发生了溢出，则跳过参数更新，并缩小scale的值，入参scale_factor是控制扩大或缩小的步数，scale_window控制没有发生溢出时，最大的连续更新步数。如果发生了溢出（上溢出），将缩小scale的值。LossScale在训练过程中使用固定scale的值，且在训练过程中不会改变scale的值，scale的值由入参loss_scale控制，可以由用户指定，不指定则取默认值。

Apex使用教程与梯度爆炸问题： Gradient overflow. Skipping step, loss scaler 0 reducing loss scale to 131072.0

热门推荐

计算机视觉

12-16

2万+

Gradient overflow. Skipping step, loss scaler 0 reducing loss scale to 131072.0

【MindSpore易点通】调优精度之低阶API使用静态LossScale

Kenji_Shinji的博客

10-31

326

LossScale的主要思想是在计算loss时，将loss扩大一定的倍数，由于链式法则的存在，梯度也会相应扩大，然后在优化器更新权重时再缩小相应的倍数，从而避免了数据下溢的情况又不影响计算结果；在MindSpore中，loss scale的使用方法又分动态loss scale和静态loss scale两种，二者具体区别详见静态LossScale和动态LossScale的区别。：定义一个静态LossScale的模型控制器，它将网络、优化器和可能的scale 更新网络作为参数。为用户更新权重的优化器；

circle loss代码实现_3行代码提速模型训练：这个算法让你的GPU老树开新花

weixin_39572794的博客

11-27

402

混合精度训练

weixin_44966641的博客

04-07

2137

混合精度训练转自：https://zhuanlan.zhihu.com/p/441591808 通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32。近年来，为了加快训练时间、减少网络训练时候所占用的内存，并且保存训练出来的模型精度持平的条件下，业界提出越来越多的混合精度训练的方法。这里的混合精度训练是指在训练的过程中，同时使用单精度（FP32）和半精度（FP16）。 1 浮点数据类型根据IEEE二进制浮点数算术标准（IEEE 754）的定义，浮点数据类型分为双精度（Fp64）、单精度（Fp

yolo如何降低loss_如何理解YOLO：YOLO详解

05-13

YOLO（You Only Look Once）是一种基于深度学习的目标检测算法，它可以在一张图像中同时检测出多个物体，并给出它们的位置和类别。对于YOLO如何降低loss的问题，YOLO的loss函数主要包括两部分：定位误差（Localization Loss）和置信度误差（Confidence Loss）。定位误差是指检测框与真实框之间的误差，YOLO使用均方差误差（MSE）来计算定位误差。而置信度误差是指检测框与真实框之间的IOU（Intersection over Union）的误差，也就是说，如果检测框与真实框之间的IOU越小，置信度误差就越大，反之亦然。为了降低loss，YOLO采用了一些技巧，例如：使用全局平均池化（Global Average Pooling）来代替全连接层，减少模型参数；使用多尺度训练（Multi-Scale Training），对不同的尺度进行训练，让模型更加鲁棒；使用Anchor Boxes，对每个物体选择几个不同大小的先验框，使得模型对不同大小的物体有更好的适应性等。理解YOLO，需要了解YOLO的基本原理和模型结构，以及它的优缺点。YOLO采用了单个神经网络来直接预测每个物体的类别和位置，因此速度快，但是准确率相对较低。与之相比，传统的目标检测算法（如RCNN，Fast RCNN，Faster RCNN）速度较慢，但是准确率较高。因此，在实际应用中，需要根据具体的场景来选择适合的目标检测算法。