多光谱(RGB-T)语义分割第二个数据集-PST900论文解读

PST900: RGB-Thermal Calibration, Dataset and Segmentation Network

一、Overview
 RGB-T语义分割可以应用于机器人自主环境感知领域(医学、农业、自动驾驶等等)。本文提出了第二个RGB-T数据集PST900以及一种新的RGB-T语义分割网络。实验表明,本文提出的模型在PST900中取得了目前最好的分割效果,但是在MFNet提出的城市场景数据集中效果仍不如RTFNet。
二、Contributions
1.提出了一种不使用加热元件的RGB和LWIR(热成像)相机校准方法,允许在现场进行快速便携的校准。
2.提出了数据集Penn Subterranean Thermal 900 Dataset (PST900)(针对特殊任务设计的),共894对RGB-T图像,分辨率均为720×1280,,包含四类标签:灭火器,背包,手钻,幸存者。(包括热人体模型,人类)
3.提出了一个RGB语义分割数据集,包含3416个带注释的RGB图像。
4.设计了一个双路的CNN结构,能够融合RGB信息与T信息。
5.通过大量实验将本文提出的模型在MFNet提出的数据集和PST900中与现有方法进行详细的比较。
三、Model

在这里插入图片描述

图1 模型结构
 图1中First Stream对应的RGB图像部分使用以ResNet-18为骨架的U-Net,之后将得到的结果和原始RGB图像以及原始的T图像级联输入到一个ERFNet中,即图1中的Second Stream。本文的模型没有大的创新点,只是将两个已有的RGB语义分割模型结合。

 ERFNet结构如表1和图1,仍是编码器-译码器结构。

表1 ERFNet结构

在这里插入图片描述

在这里插入图片描述

图2 ERFNet结构

在这里插入图片描述

图3 Non-bottleneck-1D结构
 ERFNet论文的创新点主要有两点:
  1. 是在编码器和译码器中都使用了Non-bottleneck-1D结构。图3中的(a)和(b)都是ResNet中提出的残差结构,相比于(a)来说,(b)的结构使用1×1的卷积层将输入的通道数先减小再增大,这样可以有效减少参数量,但与此同时在3×3卷积层前减小通道数的操作导致了信息的丢失。为了在不损失信息的前提条件下减少参数数量,提出了Non-bottleneck-1D结构,将(a)结构中的3×3卷积层拆分成3×1+1×3,这样可以保持通道数不变同时有效减少参数数量。
  2. 在编码器部分的Non-bottleneck-1D结构中使用了不同膨胀系数的洞卷积层堆叠,用来扩大感受野获取更丰富的上下文信息。
    四、Experiments
    1.在MFNet提出的数据集中
表2 MFNet数据集上现有方法对比

在这里插入图片描述
 RTFNet更好,本文模型效果仅次于RTFNet。但是本文模型速度比RTFNet快4倍。(疑惑:只对比了mIoU,没有计算mAcc,MFNet在每篇文章中结果差很多?)
2. 在PST900数据集中

表2 PST900数据集上现有方法对比

在这里插入图片描述
 本文模型效果最好,推理速度和RTFNet-50一样。

发布了18 篇原创文章 · 获赞 1 · 访问量 1937
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览