多层感知机作业-mlp-scratch
-
目录
3. 改变学习速率会如何影响结果?保持模型架构和其他超参数(包括轮数)不变,学习率设置为多少会带来最好的结果?
4. 通过对所有超参数(学习率、轮数、隐藏层数、每层的隐藏单元数)进行联合优化,可以得到的最佳结果是什么?
6. 如果要构建多个超参数的搜索方法,你能想到的最聪明的策略是什么?
1.更改超参数‘num_hiddens’
在学习率不变和训练次数不变的情况下,增加隐藏单元的数量,train loss 会明显降低 test acc 曲线也会更加平滑
num_hiddens=64
num_hiddens=128
num_hiddens=256
num_hiddens=512
num_hiddens=1024
2. 添加隐藏层数
-
注意点:添加隐藏层后(代码中为2个隐藏层)需要