如何配置solver.prototxt？

最新推荐文章于 2023-01-15 16:05:16 发布

杨树_

最新推荐文章于 2023-01-15 16:05:16 发布

阅读量691

点赞数

分类专栏： Caffe 深度学习文章标签： solver文件设置 test_interval test_iter display batch size

本文链接：https://blog.csdn.net/xiaoxu2050/article/details/82740560

版权

深度学习同时被 2 个专栏收录

15 篇文章 2 订阅

订阅专栏

Caffe

13 篇文章 0 订阅

订阅专栏

batch_size: 一次正向传播输入网络中实例数，随后会做一次参数更新（即反向传播）。

max_iter: 训练NN时进行正向传播的次数，即iterations

test_interval: 间隔多少次正向传播，会进行一轮测试。

test_iter: 每轮测试时要进行多少batches。测试时会计算平均准确率和loss值。test_iter* batchsize（测试集的）=测试集的大小
display: 训练多少iterations后，会显示以下训练的准确率

#测试阶段，显示准确率和loss值
I0917 14:37:11.764291 26335 solver.cpp:337] Iteration 0, Testing net (#0)
I0917 14:37:16.262382 26335 solver.cpp:404]     Test net output #0: accuracy = 0.739583
I0917 14:37:16.262457 26335 solver.cpp:404]     Test net output #1: loss = 0.858043 (* 1 = 0.858043 loss)

#display：20， 没训练20轮次显示训练网络输出的准确率和loss值
I0917 14:37:16.636895 26335 solver.cpp:228] Iteration 0, loss = 0.968098
I0917 14:37:16.636948 26335 solver.cpp:244]     Train net output #0: accuracy = 0.583333
I0917 14:37:16.636967 26335 solver.cpp:244]     Train net output #1: loss = 0.968098 (* 1 = 0.968098 loss)
I0917 14:37:16.636996 26335 sgd_solver.cpp:106] Iteration 0, lr = 5e-05  #显示learn rate

I0917 14:37:37.988771 26335 solver.cpp:228] Iteration 20, loss = 0.793176
I0917 14:37:37.988915 26335 solver.cpp:244]     Train net output #0: accuracy = 0.739583
I0917 14:37:37.988939 26335 solver.cpp:244]     Train net output #1: loss = 0.793176 (* 1 = 0.793176 loss)
I0917 14:37:37.988956 26335 sgd_solver.cpp:106] Iteration 20, lr = 5e-05

I0917 14:37:59.362856 26335 solver.cpp:228] Iteration 40, loss = 0.53863
I0917 14:37:59.362923 26335 solver.cpp:244]     Train net output #0: accuracy = 0.802083
I0917 14:37:59.362946 26335 solver.cpp:244]     Train net output #1: loss = 0.53863 (* 1 = 0.53863 loss)

.......
#test_interval：500  训练500轮，进行一轮测试
I0917 14:46:06.397847 26335 solver.cpp:337] Iteration 500, Testing net (#0)
I0917 14:46:11.180546 26335 solver.cpp:404]     Test net output #0: accuracy = 0.707292
I0917 14:46:11.180598 26335 solver.cpp:404]     Test net output #1: loss = 0.676631 (* 1 = 0.676631 loss)

lr_policy

可以设置为下面这些值，相应的学习率的计算为：

- fixed:　　保持base_lr不变.
- step: 　　如果设置为step,则还需要设置一个stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的迭代次数
- exp: 　　返回base_lr * gamma ^ iter， iter为当前迭代次数
- inv:　　如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
- multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似，step是均匀等间隔变化，multistep 则是根据stepvalue值变化
- poly: 　　学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
- sigmoid:　学习率进行sigmod衰减，返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize)))

#fixed学习策略
lr_policy: "fixed"
base_lr: 0.0003        #全局学习速率保持0.0003不变
momentum: 0.9
weight_decay: 0.0005

#step学习策略
base_lr: 0.01     # 初始学习速率 0.01 = 1e-2
lr_policy: "step" # 每个stepsize iterations，学习速率乘以gamma因子，降低学习速率
gamma: 0.1        # 每个stepsize学习速率降低为原来的0.1
stepsize: 10000   # 每训练10k iterations 学习速率降低为原来的0.1

#multistep学习策略
lr_policy: "multistep"    #每到一个stepvalue，学习速率乘以gamma因子
base_lr: 0.01
momentum: 0.9
weight_decay: 0.0005
gamma: 0.9
stepvalue: 5000
stepvalue: 7000
stepvalue: 8000
stepvalue: 9000
stepvalue: 9500

权重W的更新是当前梯度值和上一轮权重变换的线性组合，其权重是参数动量momentum μ和学习速率α

Wt+1=Wt + Vt+1

Vt+1 = μVt − α∇L(Wt) #Vt+1包括两部分，一是上一轮Vt * momentum值。二是减去权重Wt的梯度 * 学习速率α

momentum：保留上一次权重变换Vt的权重

weight_decay：正则化权重，weight_decay的配置可以参考这个回答

https://stackoverflow.com/questions/32177764/what-is-weight-decay-meta-parameter-in-caffe

总结：

1、test_iter表示测试时进行多少iterations， test_interval表示训练多少个iterations后进行一轮测试。这个两个参数设定训练测试阶段的图片数量比，测试阶段使用图片数量是test_iter * test_batch_size ，训练阶段的图片数量是test_interval * train_batch_size 这个比值应该是 1：9或者 2:8。

2、如果从头开始训练初始速率设置为0.01,之后每经历一个step size变成原来的的0.1。如果是fine turn可以将学习速率设置为0.001，然后将新增的layer层lr_mult设置为10，这样新增的层学习的速率很加快，其它层的速度保持很小速率微调。

杨树_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
如何配置solver.prototxt？

batch_size: 一次正向传播输入网络中实例数，随后会做一次参数更新（即反向传播）。 max_iter: 训练NN时进行正向传播的次数，即iterations test_interval: 间隔多少次正向传播，会进行一轮测试。 test_iter: 每轮测试时要进行多少batches。测试时会计算平均准确率和loss值。test_iter* batchsize（测试集...
复制链接

扫一扫

专栏目录