论文阅读笔记:Weakly-supervised Semantic Segmentation in Cityscape via Hyperspectral Image

论文阅读笔记:Weakly-supervised Semantic Segmentation in Cityscape via Hyperspectral Image

论文题目:Weakly-supervised Semantic Segmentation in Cityscape via Hyperspectral Image
代码链接:https://github.com/NJU-hyx/Hyperspectral-Image-Semantic-Segmentation-in-Cityscapes
摘要
在本文中,关注了一个新的主题,即通过HSI在城市景观中进行弱监督语义分割。在城市景观中,高分辨率HSIs包含丰富的光谱信息,这些信息可以很容易地与语义相关联,而无需人工标记。引入了一种弱监督的HSI语义分割框架,该框架利用光谱信息将粗标签提高到更精细的程度。
一、引入
大多数基于RGB的方法都依赖于大规模的和高质量的数据集,大型而复杂的网络和脆弱的培训策略。这是因为,RGB图像对异构体[10,9]有固有的局限性。如图所示,不同的对象可能具有相似的RGB值。
在这里插入图片描述
同色异谱:具有相似R,G,B值的像素实际上可能具有显著不同的光谱。
在城市景观场景中,HSI比RGB图像更具特色。基于此,设计了一个弱监督语义分割框架,利用了在保留基于RGB的语义分割网络时HSI的优势。具体来说,通过学习高光谱信息与语义类别之间的先验关系,细化数据集提供的粗标签。然后,改进后的标签对RGB图像上的著名语义分割网络进行监督。

创新点:

  1. 提出的框架是第一个将HSIs应用于城市景观场景中的语义分割的论文。
  2. 从理论上分析了城市景观场景中的必要性。
  3. 提出的框架,仅适用于粗标签,适用于任何RGB语义分割网络。

二、相关工作
**高光谱图像:**在数百个连续和窄波段捕捉观测场景中每个像素的光谱行为,这提供了关于捕获场景和物体的更多信息。
**城市景观场景中的语义分割:**语义分割是一项预测输入图像的每个像素的唯一语义标签的任务。半监督方法仍然依赖于精细的注释。弱监督方法通常采用边界框、涂鸦、点和图像级标签。对于图像级标签,大多数方法细化由分类网络生成的类激活映射(CAM)来近似分割掩模。由于稀疏监督,直接使用粗标签无法取得竞争效果。
**注释细化:**从根本上说,在粗标签中缺乏空间信息和语义之间的先验的情况下,很难直接细化粗标签。
三、理论分析
高光谱获得:遥感图像是基于扫描或干涉测量方法获取,这限制了光谱的使用。
自然场景中的HSI及其与遥感技术的差异:RGB通过光谱通道整合光谱图象、航空遥感图像,具有高光谱分辨率与低空间分辨率。
作为语义特征的高光谱信息:HSI可以减少偏构现象的干扰。
四、弱监督的HSI语义分割框架
如图所示,我们的方法有3个模块。首先,使用粗标签监督HSI分类,生成光谱先验结果。该步骤得到HSI和粗标签之间的先验关系,以产生较高的边精度结果。其次,将粗标签和光谱先验融合,生成更详细、更准确的标签,称为精细标签。第三,利用细化后的标签作为监督手段,提高成熟语义分割预训练模型的迁移效果。
在这里插入图片描述
高光谱语义先验模块
利用粗标签与高光谱信息之间的先验关系来获得高细度的标签,同时,以防止粗标签的粗空间信息的影响。
如图所示,我们首先从Xh生成C,其空间位置的中心为(x,y),其中x∈[(S−1)/2+1,H−(S−1)/2],y∈[(S−1)/2+1,W−(S−1)/2]。因此,在(x,y)位置处的HSI立方体用Cx,y表示。HSI立方体覆盖了从x−(S−1)/2到x+(S−1)/2的高度,从y−(S−1)/2到y+(S−1)/2的宽度和整个光谱暗淡的Dh。从Xh生成的HSI立方体的数量为(H−S+1)×(W−S+1)。Cx,y的标签是像素在该位置(x、y)处的单热标签Yx,y。
在这里插入图片描述
在我们从数据集中生成HSI立方体后,我们使用ResNet-50作为高光谱分类网络。我们将ResNet50的输入直径从Dr改为Dh,以适应HSI立方体。在训练过程中,我们使用交叉熵损失和f(Cx,y)=Zx,y地面Yx,y©=1c∈[0,k],监督学习标签,如下式所示:
在这里插入图片描述
训练结束后,我们使用高光谱分类网络计算HSI中Xh的每个像素的结果,以生成光谱先验Z。像素的稀疏随机选择和浅网络可以防止实验中的过拟合。
语义融合模块
结合粗略标签和光谱标签,然后生成精细标签,光谱先验Z具有较高的边缘细度,但手工粗标签在中心区域有较高的可信度。因此,提出了一种标签融合算法来融合两种标签的优点。首先,我们去除光谱先验中的低置信度像素。然后,我们使用一种基于类的侵蚀策略,将光谱先验Z和粗标签Y结合起来,生成精细化的标签。
使用softmax函数计算置信度,如果置信度低于阈值α,则像素将被设置为“背景”标签;否则,将为其指定标签类别。
在这里插入图片描述
由于手工粗糙标签的边缘会有一些超出类边界的错误。同时,在某些类别(如汽车、建筑)的内部区域,光谱先验存在错误分类。因此,我们提出了一种基于类的腐蚀核大小选择方法来获得最佳mask,然后融合两个标签。
在这里插入图片描述
在侵蚀每个类别后,被每个类别侵蚀的区域被加在一起形成一个mask。侵蚀操作后的面具Ymask保留了每个类别的中心附近的区域。然后使用Ymask将光谱先验Z与粗标签Y融合,生成细化的标签Yref,如下式所示:
在这里插入图片描述
微调模块
为了利用现有的语义分割成熟网络,证明我们的方法对语义分割有用。
五、实验
实现细节
高光谱城市数据集。高光谱城市数据集有367帧粗标签,55帧细标签。粗糙标注和精细标注的图像分别用于训练和测试。有6张图像同时有细的和粗的注释,用于验证。光谱相机(PMVIS)可以同时捕获同一空间区域的RGB和光谱图像。因此,每一帧同时捕获RGB图像和HSI,它们具有相同的空间分辨率1379到1773和相同的标签。HSI有129个光谱通道。光谱范围为450~950nm(可见光和近红外波段),光谱分辨率为4nm。
光谱先验。高光谱图像分类网络采用ResNet50。通过实验验证,我们将初始学习率设为0.01,权重衰减设为0.0005,epoch设为30。由于HSIs消耗大量内存,我们分两个步骤准备数据来平衡记忆和网络训练。首先,我们从批处理大小为6的训练数据集中选择图像。其次,我们从一个HSI中随机选择10,000个像素,排除其相应的粗标签为“0”(背景)。每个像素生成一个HSI立方体,总共有6万个。然后,我们从这些HSI立方体中随机选择立方体进行批量大小为256的训练。这种方法允许我们最大限度地使用内存,并防止在一个HSI上的过拟合。每张图像中使用的HSI立方体的数量只占总数的一小部分。同一物质的光谱信息具有较高的相似性,可以保证使用少量的HSI立方体可以学习到足够的先验信息。我们设置HSI立方体的空间分辨率为11×11。
微调模块。在得到细化标签后,我们使用重定义标签对分割预先训练的模型进行微调。对于微调网络,我们修复了特征提取层的参数,并且只对最后两个1×1卷积层进行了微调。在4个gpu(GTX1080Ti)上,我们将初始学习率设为0.001,重量衰减为0.0005,重量衰减为3,作物大小为1773×1379,epoch为200,批大小为3。我们使用因子1−(iter/iter最大值)^0.9执行多项式学习率策略。我们使用InPlace−ABN ^sync来同步多个gpu中BN的平均值和标准偏差。对于数据增强,我们执行水平随机翻转和随机亮度。对于评估,我们使用联合值上的类级交集(IoU)和像素级精度(Acc)衡量指标。
定量分析
光谱先验。在表1中,我们在验证集上比较了光谱先验和粗标签。首先,基于HSIs的光谱先验远优于基于RGB图像的光谱先验。HSIs比RGB图像具有更强的语义先验。其次,由于光谱先验在某些类别中存在错误的分类,因此光谱先验几乎等于Acc中的粗标签。而在mIoU中则较低。第三,对验证集和训练集上的一些谱先验和粗标签的比较,表明谱先验可以有效地提高边缘细度,纠正粗标签中的错误或缺失的注释。
表1
在这里插入图片描述
六、结论
本文提出了一种基于高光谱城市景观场景的HSI弱监督语义分割框架。具体来说,首先,我们引入了一个新的高光谱数据集。对高光谱图像(HSIs)和RGB图像的比较表明,更丰富的HSIs光谱信息对语义先验具有重要意义。其次,我们利用光谱信息独立于精细注释的特性来优化语义分割和粗注释。在标注成本较低的情况下,可以获得精度较高的标签。第三,利用改进后的标签对语义分割预训练模型进行微调,显著提高了分割精度。今后,我们希望继续探索光谱在更多场景中的应用价值。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值