- 博客(2)
- 收藏
- 关注
原创 3BLUE1BROWN深度学习笔记
我们一般这么做:首先把训练样本打乱,然后分成很多组minibatch,然后算出minibatch下降的一步,这不是代价函数真正的梯度(计算真实梯度要用上所有的样本,而非子集),但每个minibatch都会给一个不错的近似,并且会大幅减少计算量。WQ矩阵内部的数值都是模型的参数,具体的行为模式是从数据中学得的。对每列应用softmax函数进行归一化,将归一化后的值填进网络,此时可以将每一列看作权重,表示左侧的键与顶部的查询的相关度。得到的一系列的权重偏置的平均微调大小,就是代价函数的负梯度,或其标量的倍数。
2024-09-16 21:27:02 998 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人