batch_size: 一次正向传播输入网络中实例数,随后会做一次参数更新(即反向传播)。
max_iter: 训练NN时进行正向传播的次数,即iterations
test_interval: 间隔多少次正向传播,会进行一轮测试。
test_iter: 每轮测试时要进行多少batches。测试时会计算平均准确率和loss值。test_iter* batchsize(测试集的)=测试集的大小
display: 训练多少iterations后,会显示以下训练的准确率
#测试阶段,显示准确率和loss值
I0917 14:37:11.764291 26335 solver.cpp:337] Iteration 0, Testing net (#0)
I0917 14:37:16.262382 26335 solver.cpp:404] Test net output #0: accuracy = 0.739583
I0917 14:37:16.262457 26335 solver.cpp:404] Test net output #1: loss = 0.858043 (* 1 = 0.858043 loss)
#display:20, 没训练20轮次显示训练网络输出的准确率和loss值
I0917 14:37:16.636895 26335 solver.cpp:228] Iteration 0, loss = 0.968098
I0917 14:37:16.636948 26335 solver.cpp:244] Train net output #0: accuracy = 0.583333
I0917 14:37:16.636967 26335 solver.cpp:244] Train net output #1: loss = 0.968098 (* 1 = 0.968098 loss)
I0917 14:37:16.636996 26335 sgd_solver.cpp:106] Iteration 0, lr = 5e-05 #显示learn rate
I0917 14:37:37.988771 26335 solver.cpp:228] Iteration 20, loss = 0.793176
I0917 14:37:37.988915 26335 solver.cpp:244] Train net output #0: accuracy = 0.739583
I0917 14:37:37.988939 26335 solver.cpp:244] Train net output #1: loss = 0.793176 (* 1 = 0.793176 loss)
I0917 14:37:37.988956 26335 sgd_solver.cpp:106] Iteration 20, lr = 5e-05
I0917 14:37:59.362856 26335 solver.cpp:228] Iteration 40, loss = 0.53863
I0917 14:37:59.362923 26335 solver.cpp:244] Train net output #0: accuracy = 0.802083
I0917 14:37:59.362946 26335 solver.cpp:244] Train net output #1: loss = 0.53863 (* 1 = 0.53863 loss)
.......
#test_interval:500 训练500轮,进行一轮测试
I0917 14:46:06.397847 26335 solver.cpp:337] Iteration 500, Testing net (#0)
I0917 14:46:11.180546 26335 solver.cpp:404] Test net output #0: accuracy = 0.707292
I0917 14:46:11.180598 26335 solver.cpp:404] Test net output #1: loss = 0.676631 (* 1 = 0.676631 loss)
lr_policy
可以设置为下面这些值,相应的学习率的计算为:
- - fixed: 保持base_lr不变.
- - step: 如果设置为step,则还需要设置一个stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的 迭代次数
- - exp: 返回base_lr * gamma ^ iter, iter为当前迭代次数
- - inv: 如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
- - multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔变化,multistep 则是根据stepvalue值变化
- - poly: 学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
- - sigmoid: 学习率进行sigmod衰减,返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize)))
#fixed学习策略
lr_policy: "fixed"
base_lr: 0.0003 #全局学习速率保持0.0003不变
momentum: 0.9
weight_decay: 0.0005
#step学习策略
base_lr: 0.01 # 初始学习速率 0.01 = 1e-2
lr_policy: "step" # 每个stepsize iterations,学习速率乘以gamma因子,降低学习速率
gamma: 0.1 # 每个stepsize学习速率降低为原来的0.1
stepsize: 10000 # 每训练10k iterations 学习速率降低为原来的0.1
#multistep学习策略
lr_policy: "multistep" #每到一个stepvalue,学习速率乘以gamma因子
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
gamma: 0.9
stepvalue: 5000
stepvalue: 7000
stepvalue: 8000
stepvalue: 9000
stepvalue: 9500
权重W的更新是当前梯度值和上一轮权重变换的线性组合,其权重是参数动量momentum μ和学习速率α
Wt+1=Wt + Vt+1
Vt+1 = μVt − α∇L(Wt) #Vt+1包括两部分,一是上一轮Vt * momentum值。二是减去权重Wt的梯度 * 学习速率α
momentum:保留上一次权重变换Vt的权重
weight_decay:正则化权重,weight_decay的配置可以参考这个回答
https://stackoverflow.com/questions/32177764/what-is-weight-decay-meta-parameter-in-caffe
总结:
1、test_iter表示测试时进行多少iterations, test_interval表示训练多少个iterations后进行一轮测试。这个两个参数设定训练测试阶段的图片数量比,测试阶段使用图片数量是test_iter * test_batch_size ,训练阶段的图片数量是test_interval * train_batch_size 这个比值应该是 1:9或者 2:8。
2、如果从头开始训练初始速率设置为0.01,之后每经历一个step size变成原来的的0.1。如果是fine turn可以将学习速率设置为0.001,然后将新增的layer层lr_mult设置为10,这样新增的层学习的速率很加快,其它层的速度保持很小速率微调。