如何配置solver.prototxt?

 batch_size:  一次正向传播输入网络中实例数,随后会做一次参数更新(即反向传播)。

 max_iter:   训练NN时进行正向传播的次数,即iterations

 test_interval:  间隔多少次正向传播,会进行一轮测试。

 test_iter:  每轮测试时要进行多少batches。测试时会计算平均准确率和loss值。test_iter* batchsize(测试集的)=测试集的大小
 display:    训练多少iterations后,会显示以下训练的准确率

#测试阶段,显示准确率和loss值
I0917 14:37:11.764291 26335 solver.cpp:337] Iteration 0, Testing net (#0)
I0917 14:37:16.262382 26335 solver.cpp:404]     Test net output #0: accuracy = 0.739583
I0917 14:37:16.262457 26335 solver.cpp:404]     Test net output #1: loss = 0.858043 (* 1 = 0.858043 loss)

#display:20, 没训练20轮次显示训练网络输出的准确率和loss值
I0917 14:37:16.636895 26335 solver.cpp:228] Iteration 0, loss = 0.968098
I0917 14:37:16.636948 26335 solver.cpp:244]     Train net output #0: accuracy = 0.583333
I0917 14:37:16.636967 26335 solver.cpp:244]     Train net output #1: loss = 0.968098 (* 1 = 0.968098 loss)
I0917 14:37:16.636996 26335 sgd_solver.cpp:106] Iteration 0, lr = 5e-05  #显示learn rate

I0917 14:37:37.988771 26335 solver.cpp:228] Iteration 20, loss = 0.793176
I0917 14:37:37.988915 26335 solver.cpp:244]     Train net output #0: accuracy = 0.739583
I0917 14:37:37.988939 26335 solver.cpp:244]     Train net output #1: loss = 0.793176 (* 1 = 0.793176 loss)
I0917 14:37:37.988956 26335 sgd_solver.cpp:106] Iteration 20, lr = 5e-05

I0917 14:37:59.362856 26335 solver.cpp:228] Iteration 40, loss = 0.53863
I0917 14:37:59.362923 26335 solver.cpp:244]     Train net output #0: accuracy = 0.802083
I0917 14:37:59.362946 26335 solver.cpp:244]     Train net output #1: loss = 0.53863 (* 1 = 0.53863 loss)

.......
#test_interval:500  训练500轮,进行一轮测试
I0917 14:46:06.397847 26335 solver.cpp:337] Iteration 500, Testing net (#0)
I0917 14:46:11.180546 26335 solver.cpp:404]     Test net output #0: accuracy = 0.707292
I0917 14:46:11.180598 26335 solver.cpp:404]     Test net output #1: loss = 0.676631 (* 1 = 0.676631 loss)

lr_policy

      可以设置为下面这些值,相应的学习率的计算为:

  • - fixed:   保持base_lr不变.
  • - step:    如果设置为step,则还需要设置一个stepsize,  返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的                     迭代次数
  • - exp:     返回base_lr * gamma ^ iter, iter为当前迭代次数
  • - inv:      如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
  • - multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔变化,multistep                        则是根据stepvalue值变化
  • - poly:     学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
  • - sigmoid: 学习率进行sigmod衰减,返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize)))
#fixed学习策略
lr_policy: "fixed"
base_lr: 0.0003        #全局学习速率保持0.0003不变
momentum: 0.9
weight_decay: 0.0005

#step学习策略
base_lr: 0.01     # 初始学习速率 0.01 = 1e-2
lr_policy: "step" # 每个stepsize iterations,学习速率乘以gamma因子,降低学习速率
gamma: 0.1        # 每个stepsize学习速率降低为原来的0.1
stepsize: 10000   # 每训练10k iterations 学习速率降低为原来的0.1

#multistep学习策略
lr_policy: "multistep"    #每到一个stepvalue,学习速率乘以gamma因子
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
gamma: 0.9
stepvalue: 5000
stepvalue: 7000
stepvalue: 8000
stepvalue: 9000
stepvalue: 9500

权重W的更新是当前梯度值和上一轮权重变换的线性组合,其权重是参数动量momentum μ和学习速率α

Wt+1=Wt + Vt+1     

Vt+1 = μVt − α∇L(Wt)     #Vt+1包括两部分,一是上一轮Vt * momentum值。二是减去权重Wt的梯度 * 学习速率α

momentum:保留上一次权重变换Vt的权重

weight_decay:正则化权重,weight_decay的配置可以参考这个回答

https://stackoverflow.com/questions/32177764/what-is-weight-decay-meta-parameter-in-caffe

总结:

1、test_iter表示测试时进行多少iterations, test_interval表示训练多少个iterations后进行一轮测试。这个两个参数设定训练测试阶段的图片数量比,测试阶段使用图片数量是test_iter * test_batch_size ,训练阶段的图片数量是test_interval * train_batch_size 这个比值应该是 1:9或者 2:8。

2、如果从头开始训练初始速率设置为0.01,之后每经历一个step size变成原来的的0.1。如果是fine turn可以将学习速率设置为0.001,然后将新增的layer层lr_mult设置为10,这样新增的层学习的速率很加快,其它层的速度保持很小速率微调。

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值