计算机视觉(Compute Vision,CV)给计算机装上了“眼睛”,让计算机像人类一样也有“视觉”能力,能够“看”懂图片里的内容。
作为深度学习领域的最重要的应用场景之一,在手机拍照、智能安防、自动驾驶等场景均有广泛的应用,而检测类任务作为CV领域的一类经典任务,也在以上场景中广泛应用。
FasterRcnn 算法简介
从图中可以看到,一张图片通过FasterRcnn网络,就可以获取到目标的位置与目标的类别,因此,我们可以将FasterRcnn应用到安防,自动驾驶等各种场景,让自动一定程度上减少人工的工作量。
使用MindSpore训练/推理FasterRcnn
使用MindSpore来复现FasterRCNN这个经典的检测网络。
这里仅列出了部分重要代码片段,完整代码请参考:
2. 网络结构
网络结构的定义是整个代码的核心部分,在FasterRcnn中,这一部分代码在src/FasterRcnn文件夹内,其中总体网络结构入口在
src/faster_rcnn.r50.py
每个模块的定义是:
ResnetFea:
resnet的网络结构定义,为FasterRcnn的backbone的网络结构
· FeatPyramidNeck:
FPN(特征金字塔网络)的网络结构定义,为FasterRcnn提供不同的高分辨率特征
· RPN:
RPN(Region proposal network)的网络结构定义,为FasterRcnn第一阶段计算分类与回归loss的模块
· BboxAssignSample:
为RPN模块的子模块,为RPN选择固定比率的正负样本参与loss计算
· Proposal:
选取候选框的模块,后续第二阶段,只对这一模块输出的候选框进行计算
· BboxAssignSampleForRcnn:
对Proposal模块输出的候选框,再次进行一轮正负样本的筛选,用于第二阶段的计算
· SingleRoIExtractor:
该模块主要是用来提取每个候选框的对应特征,并保证特征大小一致
· RCNN:
为FasterRcnn第二阶段计算分类与回归loss的模块
· AnchorGenerator:
预先生成anchor框 的模块
通过以上这些模块的组合,结合之前的网络结构介绍,我们就可以获取到一个完整的FasterRcnn网络的模型定义,下图就是部分整网定义的代码,完整的整网定义可以查看 src/faster_rcnn.r50.py 文件:
3. Lr定义
4. 数据生成与数据增强
MindSpore中提供了MindRecord的接口来存储数据,方便用户使用,我们可以先把图片与标签数据生成MindRecord格式的数据,方便后续使用:
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200728165732108.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTIxMjkyMQ==,size_16,color_FFFFFF,t_70)
5. 训练FasterRcnn网络
做完上面一系列准备后,我们就可以着手开始训练我们的网络了:
在训练过程中,我们可以在loss.log中看到loss打印:
6. 推理FasterRcnn网络
当我们完成训练后,想查看我们训练的效果,这时候可以加载我们训练好的模型,来获取推理的精度:
推理完成后,我们可以看到如下推理结果:
本文介绍了如何在MindSpore上实现FasterRcnn网络的训练与推理, 通过使用MindSpore可以很方便、高效地完成CV典型应用的构建、训练、验证、部署等过程。 感兴趣的朋友们可以试一试~
MindSpore官方资料
GitHub:https://github.com/mindspore-ai/mindspore
Gitee:https://gitee.com/mindspore/mindspore
官方QQ群: 871543426