在神经网络中,批次中的单个梯度是求和还是求平均值

转发别人的回答:

这取决于你想要实现什么。损失函数作为训练神经网络的指南,使其在任务中变得更好。

如果我们将交叉熵损失输出相加,我们会产生与批量大小成比例的损失,因为在训练期间,我们的损失与小批量大小成比例增长。

然而,如果我们取平均值,我们的损失与批量大小无关,因为我们取平均值。

对于您的用例,我建议取平均值,因为这可以确保您的损失函数与诸如前面提到的批处理大小之类的超参数解耦。

另一个直观的例子是,通过平均损失,我们将损失输出归一化,这也有助于稳定训练,因为我们的网络对学习率变得不那么敏感。如果我们使用sum,我们可能会遇到爆炸性的梯度问题,这迫使我们使用低得多的学习率,从而使我们的网络对超参数值更加敏感。

原文链接:https://stackoverflow.com/questions/67482379

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值