LLM - 神经网络的训练过程

黑不溜秋的

已于 2024-07-05 22:34:29 修改

阅读量753

点赞数 15

分类专栏： AI编译器专栏文章标签：神经网络人工智能深度学习

于 2024-07-05 22:28:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zangle260/article/details/140218744

版权

AI编译器专栏专栏收录该内容

13 篇文章 1 订阅

订阅专栏

1. 对于回归问题，用损失函数来计算预测值和真实值的差异，一种常用的公式是如下图所示(Mean Square Error)，如果损失函数的值越小说明神经网络学习越准确，所以神经网络训练目标是减小损失函数的值，

2. 对于分类问题，损失函数和上面不一样，这里使用交叉熵作为损失函数，神经网络训练目标是最小化交叉熵。

3. 最小化损失函数的方法（梯度下降法），即将优化步骤拆分成若干个步骤，每次对损失函数的值做小幅缩小，具体过程是对损失函数求该模型参数的梯度，每次迭代对向着梯度变化最快的方向前进一步（这样就可以计算出模型参数，并在此轮迭代后更新模型参数），这样就可以使损失函数值降低一点，每次前进一步的步长称为学习率。

4. 回归问题的梯度求解过程：输出是标量F(x), 输入是[x1,x2,...xn], 对输入求偏导，得到的向量是梯度。

5. 分类问题的梯度求解过程：输出是向量F(X)，有多个输出，让每个输出对输入变量X[x1,x2,..xn]求微分，得到的jacobian矩阵是梯度

6. 求微分时的链式法则：

7.求微分实例：

8.在实际深度学习场景中，对每个参数梯度计算是通过反向传播算法实现的。

9.单个节点梯度的计算过程: downstream_gradient = upstream_gradient * local_gradient 这个公式在实际写算子时会用到。

黑不溜秋的

关注

15
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLM - 神经网络的训练过程

3. 最小化损失函数的方法（梯度下降法），即将优化步骤拆分成若干个步骤，每次对损失函数的值做小幅缩小，具体过程是对损失函数求该模型参数的梯度，每次迭代对向着梯度变化最快的方向前进一步（这样就可以计算出模型参数，并在此轮迭代后更新模型参数），这样就可以使损失函数值降低一点，每次前进一步的步长称为学习率。1. 对于回归问题，用损失函数来计算预测值和真实值的差异，一种常用的公式是如下图所示(Mean Square Error)，如果损失函数的值越小说明神经网络学习越准确，所以神经网络训练目标是减小损失函数的值，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

黑不溜秋的 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。