例如:stage1_rpn_solver60k80k.pt配置
train_net: "models/pascal_voc/ZF/faster_rcnn_alt_opt/stage1_rpn_train.pt"
#网络最开始的学习速率(Learning rate),是个浮点数,lr过大会导致不收敛,过小会导致收敛过慢,所以这个参数设置也很重要。
base_lr: 0.001
#网络最开始的学习速率(Learning rate),是个浮点数,lr过大会导致不收敛,过小会导致收敛过慢,所以这个参数设置也很重要。
base_lr: 0.001
这个参数代表的是learning rate应该遵守什么样的变化规则,这个参数对应的是字符串,选项及说明如下:
- “step” - 需要设置一个stepsize参数,返回base_lr * gamma ^ ( floor ( iter / stepsize ) ),iter为当前迭代次数
- “multistep” - 和step相近,但是需要stepvalue参数,step是均匀等间隔变化,而multistep是根据stepvalue的值进行变化
- “fixed” - 保持base_lr不变
- “exp” - 返回base_lr * gamma ^ iter, iter为当前迭代次数
- “poly” - 学习率进行多项式误差衰减,返回 base_lr ( 1 - iter / max_iter ) ^ ( power )
- “sigmoid” - 学习率进行sigmod函数衰减,返回 base_lr ( 1/ 1+exp ( -gamma * ( iter - stepsize ) ) )
和learning rate相关的,lr_policy中包含此参数的话,需要进行设置,一般是一个实数。
gamma: 0.1
gamma: 0.1
训练经过stepsize次迭代后,改变学习率
stepsize: 60000
间隔20次迭代后对结果进行输出
display: 20
display: 20
取多次foward的loss作平均,进行显示输出
。
average_loss: 100
average_loss: 100
冲量,上一次梯度更新的权重
momentum: 0.9
momentum: 0.9
权重衰减项,用于防止过拟合。
weight_decay: 0.0005
训练快照,确定多久保存一次model和solverstate
snapshot: 0
weight_decay: 0.0005
训练快照,确定多久保存一次model和solverstate
snapshot: 0
snapshot的前缀,就是model和solverstate的命名前缀,也代表路径。
snapshot_prefix: "zf_rpn"