深度学习基础
文章平均质量分 94
宁远x
已入职某血汗工厂,主攻LLM训练,不定期更新博客
展开
-
手撕深度学习中的损失函数(上)
交叉熵损失函数关于输入权重的梯度表达式与预测值与真实值的误差成正比且不含激活函数的梯度,而均方误差损失函数关于输入权重的梯度表达式中则含有,由于常用的sigmoid/tanh等激活函数存在梯度饱和区,使得MSE对权重的梯度会很小,参数w调整的慢,训练也慢,而交叉熵损失函数则不会出现此问题,其参数w会根据误差调整,训练更快,效果更好。原创 2023-04-14 08:57:57 · 872 阅读 · 0 评论 -
手撕深度学习中的优化器
深度学习中的优化算法采用的原理是梯度下降法,选取适当的初值params,不断迭代,进行目标函数的极小化,直到收敛。由于负梯度方向时使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新params的值,从而达到减少函数值的目的。原创 2023-04-05 17:19:20 · 1225 阅读 · 1 评论