cs231n
文章平均质量分 71
Deserve_p
这个作者很懒,什么都没留下…
展开
-
「cs231n」深度学习网络训练技巧3——After training
三、After training训练好一个model后该干什么:Model ensembles;transfer learning;large-batch training。Model ensembles(李沐大神也提到过这个)1.训练多个独立的models2.在test时,取多个model的结果的平均值(取预测概率分布的平均,选择argmax)会得到2%左右的提升...原创 2022-05-28 17:26:23 · 133 阅读 · 0 评论 -
「cs231n」深度学习网络训练技巧2——Training NN
二、Training dynamicsLearning rate schedule优化器optimizer的学习率的选取。Learning rate decay:一开始lr较大,随着epoch衰减Step Learning rate schedule:设置epoch节点decay 学习率。但是需要决定在哪个epoch进行decay和选择多大的新学习率这些超参数。实际中,观察学习曲线,估计在哪个点loss趋于平稳,就在这点改变。缺点:需要很多次实验Cosine learning rat原创 2022-05-01 12:29:07 · 1193 阅读 · 0 评论 -
[cs231n] 深度学习训练的技巧——one time setup
1. One time setup训练前需要提前考虑好的part: Activation functions; data preprocessing; weight initialization; regularization.Activation function1. Sigmoid在这里插入图片描述将输入x归一化到 [0, 1]表示了开关状态缺点:最关键:’饱和‘的神经元会’kill‘ 梯度。当输入x很小,local gradient几乎接近0,反向传播的upstream g原创 2022-04-27 23:17:42 · 923 阅读 · 0 评论 -
[cs231n] Softmax Classifier/ SVM
scores:线性函数:损失函数 Loss function: 交叉熵损失 Cross Entropy Loss原创 2022-04-10 13:00:11 · 875 阅读 · 0 评论