多光谱（RGB-T）语义分割第二个数据集-PST900论文解读

最新推荐文章于 2024-08-02 17:39:22 发布

置顶 zhaoshenlu829

最新推荐文章于 2024-08-02 17:39:22 发布

阅读量3.9k

点赞数 1

分类专栏：多光谱（RGB-T）语义分割论文详解文章标签：计算机视觉深度学习机器学习人工智能神经网络

本文链接：https://blog.csdn.net/zz937211040/article/details/105123437

版权

多光谱（RGB-T）语义分割论文详解专栏收录该内容

3 篇文章 7 订阅

订阅专栏

PST900: RGB-Thermal Calibration, Dataset and Segmentation Network

一、Overview
RGB-T语义分割可以应用于机器人自主环境感知领域（医学、农业、自动驾驶等等）。本文提出了第二个RGB-T数据集PST900以及一种新的RGB-T语义分割网络。实验表明，本文提出的模型在PST900中取得了目前最好的分割效果，但是在MFNet提出的城市场景数据集中效果仍不如RTFNet。
二、Contributions
1.提出了一种不使用加热元件的RGB和LWIR(热成像)相机校准方法，允许在现场进行快速便携的校准。
2.提出了数据集Penn Subterranean Thermal 900 Dataset (PST900)（针对特殊任务设计的），共894对RGB-T图像，分辨率均为720×1280，,包含四类标签：灭火器，背包，手钻，幸存者。（包括热人体模型，人类）
3.提出了一个RGB语义分割数据集，包含3416个带注释的RGB图像。
4.设计了一个双路的CNN结构，能够融合RGB信息与T信息。
5.通过大量实验将本文提出的模型在MFNet提出的数据集和PST900中与现有方法进行详细的比较。
三、Model

在这里插入图片描述

图1 模型结构图1中First Stream对应的RGB图像部分使用以ResNet-18为骨架的U-Net，之后将得到的结果和原始RGB图像以及原始的T图像级联输入到一个ERFNet中，即图1中的Second Stream。本文的模型没有大的创新点，只是将两个已有的RGB语义分割模型结合。

ERFNet结构如表1和图1，仍是编码器-译码器结构。

表1 ERFNet结构

在这里插入图片描述

图2 ERFNet结构

在这里插入图片描述

图3 Non-bottleneck-1D结构 ERFNet论文的创新点主要有两点：

是在编码器和译码器中都使用了Non-bottleneck-1D结构。图3中的（a）和（b）都是ResNet中提出的残差结构，相比于（a）来说，（b）的结构使用1×1的卷积层将输入的通道数先减小再增大，这样可以有效减少参数量，但与此同时在3×3卷积层前减小通道数的操作导致了信息的丢失。为了在不损失信息的前提条件下减少参数数量，提出了Non-bottleneck-1D结构，将（a）结构中的3×3卷积层拆分成3×1+1×3，这样可以保持通道数不变同时有效减少参数数量。
在编码器部分的Non-bottleneck-1D结构中使用了不同膨胀系数的洞卷积层堆叠，用来扩大感受野获取更丰富的上下文信息。
四、Experiments
1.在MFNet提出的数据集中

表2 MFNet数据集上现有方法对比

在这里插入图片描述
RTFNet更好，本文模型效果仅次于RTFNet。但是本文模型速度比RTFNet快4倍。（疑惑：只对比了mIoU，没有计算mAcc，MFNet在每篇文章中结果差很多？）
2. 在PST900数据集中

表2 PST900数据集上现有方法对比

在这里插入图片描述
本文模型效果最好，推理速度和RTFNet-50一样。

zhaoshenlu829

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
多光谱（RGB-T）语义分割第二个数据集-PST900论文解读

PST900: RGB-Thermal Calibration, Dataset and Segmentation Network一、Overview RGB-T语义分割可以应用于机器人自主环境感知领域（医学、农业、自动驾驶等等）。本文提出了第二个RGB-T数据集PST900以及一种新的RGB-T语义分割网络。实验表明，本文提出的模型在PST900中取得了目前最好的分割效果，但是在MFNet提...
复制链接

扫一扫

专栏目录