py-faster-rcnn流程（2）——训练RPN网络一阶段

最新推荐文章于 2022-08-15 15:41:21 发布

zchang81

最新推荐文章于 2022-08-15 15:41:21 发布

阅读量2.6k

点赞数

分类专栏： faster rcnn 文章标签： Caffe python py-faster-rcnn 深度学习源码

本文链接：https://blog.csdn.net/zchang81/article/details/72969623

版权

faster rcnn 专栏收录该内容

25 篇文章 2 订阅

订阅专栏

使用预训练的ImageNet模型初始化RPN网络。

cfg.TRAIN.SNAPSHOT_INFIX = 'stage1'
mp_kwargs = dict(
        queue=mp_queue,
        imdb_name=args.imdb_name,
        init_model=args.pretrained_model,
        solver=solvers[0],
        max_iters=max_iters[0],
        cfg=cfg)
p = mp.Process(target=train_rpn, kwargs=mp_kwargs)
p.start()
rpn_stage1_out = mp_queue.get()
p.join()
 
 1
2
3
4
5
6
7
8
9
10
11
12

第一个步骤是用ImageNet的模型M0来Finetuning RPN网络得到模型M1。以训练为例，这里的args参数都在脚本 experiments/scrips/faster_rcnn_alt_opt.sh中找到。主要关注train_rpn函数。
对于train_rpn函数，主要分一下几步：

1.在config参数的基础上改动参数，以适合当前任务，主要有

cfg.TRAIN.HAS_RPN = True
cfg.TRAIN.BBOX_REG = False  # applies only to Fast R-CNN bbox regression
cfg.TRAIN.PROPOSAL_METHOD = 'gt'
 
 1
2
3

这里，关注proposal method 使用的是gt，后面会使用到gt_roidb函数，重要。

2. 初始化化caffe

3. 准备roidb和imdb

主要涉及到的函数get_roidb
在get_roidb函数中调用factory中的get_imdb根据__sets[name]中的key（一个lambda表达式）转到pascol_voc类。class pascal_voc（imdb）在初始化自己的时候，先调用父类的初始化方法，例如：

{
    year:’2007’
    image _set:’trainval’
    devkit _path:’data/VOCdevkit2007’
    data _path:’data /VOCdevkit2007/VOC2007’
    classes:(…)_如果想要训练自己的数据，需要修改这里_
    class _to _ind:{…} _一个将类名转换成下标的字典 _  建立索引0,1,2....
    image _ext:’.jpg’
    image _index: [‘000001’,’000003’,……]_根据trainval.txt获取到的image索引_
    roidb _handler: <Method gt_roidb >
    salt:  <Object uuid >
    comp _id:’comp4’
    config:{…}
}
 
 1
2
3
4
5
6
7
8
9
10
11
12
13
14

注意，在这里，并没有读入任何数据，只是建立了图片的索引。

imdb.set_proposal_method(cfg.TRAIN.PROPOSAL_METHOD)
 
 1

设置proposal方法，接上面，设置为gt，这里只是设置了生成的方法，第一次调用发生在下一句，roidb = get_training_roidb(imdb) –> append_flipped_images()时的这行代码：“boxes = self.roidb[i][‘boxes’].copy()”，其中get_training_roidb位于train.py，主要实现图片的水平翻转，并添加回去。实际是该函数调用了imdb. append_flipped_images也就是在这个函数，调用了pascal_voc中的gt_roidb，转而调用了同一个文件中的_load_pascal_annotation，该函数根据图片的索引，到Annotations这个文件夹下去找相应的xml标注数据，然后加载所有的bounding box对象，xml的解析到此结束，接下来是roidb中的几个类成员的赋值：

boxes 一个二维数组，每一行存储 xmin ymin xmax ymax
gt _classes存储了每个box所对应的类索引(类数组在初始化函数中声明)
gt _overlap是一个二维数组，共有num _classes(即类的个数)行，每一行对应的box的类索引处值为1，其余皆为0，后来被转成了稀疏矩阵
seg _areas存储着某个box的面积
flipped 为false 代表该图片还未被翻转(后来在train.py里会将翻转的图片加进去，用该变量用于区分

最后将这些成员变量组装成roidb返回。
在get_training_roidb函数中还调用了roidb中的prepare_roidb函数，这个函数就是用来准备imdb 的roidb，给roidb中的字典添加一些属性，比如image(图像的索引)，width，height，通过前面的gt _overla属性，得到max_classes和max_overlaps.
至此，

return roidb，imdb
 
 1

4. 设置输出路径，output_dir = get_output_dir(imdb)，函数在config中，用来保存中间生成的caffemodule等

5.正式开始训练

model_paths = train_net(solver, roidb, output_dir,
                        pretrained_model=init_model,
                        max_iters=max_iters)
 
 1
2
3

调用train中的train_net函数，其中，首先filter_roidb，判断roidb中的每个entry是否合理，合理定义为至少有一个前景box或背景box，roidb全是groudtruth时，因为box与对应的类的重合度(overlaps)显然为1，也就是说roidb起码要有一个标记类。如果roidb包含了一些proposal，overlaps在[BG_THRESH_LO, BG_THRESH_HI]之间的都将被认为是背景，大于FG_THRESH才被认为是前景，roidb 至少要有一个前景或背景，否则将被过滤掉。将没用的roidb过滤掉以后，返回的就是filtered_roidb。在train文件中，需要关注的是SolverWrapper类。详细见train.py，在这个类里面，引入了caffe SGDSlover，最后一句self.solver.net.layers[0].set_roidb(roidb)将roidb设置进layer(0)(在这里就是ROILayer)调用ayer.py中的set_roidb方法，为layer(0)设置roidb，同时打乱顺序。最后train_model。在这里，就需要去实例化每个层，在这个阶段，首先就会实现ROIlayer，详细参考layer中的setup，在训练时roilayer的forward函数，在第一个层，只需要进行数据拷贝，在不同的阶段根据prototxt文件定义的网络结构拷贝数据，blobs = self._get_next_minibatch()这个函数读取图片数据（调用get_minibatch函数，这个函数在minibatch中，主要作用是为faster rcnn做实际的数据准备，在读取数据的时候，分出了boxes，gt_boxes,im_info（宽高缩放）等）。
第一个层，对于stage1_rpn_train.pt文件中，该layer只有3个top blob：’data’、’im_info’、’gt_boxes’。
对于stage1_fast_rcnn_train.pt文件中，该layer有6个top blob：top: ‘data’、’rois’、’labels’、’bbox_targets’、’bbox_inside_weights’、’bbox_outside_weights’，这些数据准备都在minibatch中。至此后数据便在caffe中流动了，直到训练结束。
值得注意的是在rpn-data层使用的是AnchorTargetLayer，该层使用python实现的，往后再介绍。