一种基于端到端结构化网络的高效火灾和烟雾检测算法

1.文章信息

本次介绍的文章是天津大学和南开大学发表的一篇基于计算机视觉的火灾检测文章,题目为《An efficient fire and smoke detection algorithm based on an end-to-end structured network》,这篇文章2022年发表在Engineering Applications of Artificial Intelligence上。

2.摘要

Detection transformer(DETR)将卷积神经网络(CNN)与transformer相结合,提供了一种更先进的思想。文章提出了一种基于DETR的火灾和烟雾探测目标检测模型。与其他基于深度学习的方法相比,该方法简化了检测流程,构建了端到端检测器。同时,原始的DETR模型通常需要较长的训练时间和大量的计算量,导致检测速度和准确性相对较差,并且对于小型或早期火灾检测不友好。因此,在设计所提出的网络模型时,在特征提取阶段添加了基于规范化的关注模块,以突出有效特征,这有利于编码过程。编码器-解码器结构中还使用了多尺度可变形注意力,从而加速了模型训练过程中的收敛过程,包括增强对小对象的检测。此外,考虑到计算成本,重新定义了编码器-解码器结构中的层数,以降低模型的复杂性,这也降低了应用设备的要求。在三个自建数据集和两个公共视频集上进行了详细的实验。结果表明,所提出的方法在这里考虑的所有数据集上都具有优异的性能。

3.介绍

失控的火灾是残酷的,它不仅造成巨大的经济损失,而且危及人类安全、社会稳定、自然环境和生态平衡。此外,事实证明,火灾造成的环境破坏通常需要几十年才能恢复。

随着公众意识的提高,消防产品的市场迅速增长,传统的基于传感器的火灾探测技术表现不佳的问题已经显露出来。例如,基于烟、热和光的火灾探测器过于昂贵,无法安装在大型室外空间、多层建筑或有干扰物体(如照明、灰尘和障碍物)的空间中。近年来,随着嵌入式智能监控设备处理能力的提高,研究人员提出了基于图像的火灾检测方法,它们在位置灵活性方面表现优异,适合室外环境,也可用于早期火灾检测。

早期基于图像的火灾检测方法通过创建手动设计的特征分类器(如颜色、运动和纹理)来检测火灾和烟雾,显示出对环境的适应性较差。基于深度学习的方法可以自动从原始图像中提取特征,因此在图像火灾检测中表现出更好的性能。因此,由于基于深度学习的方法具有更好的适应性和快速的硬件开发,具有手动特征提取的传统视觉火灾检测方法已逐渐被取代。

基于深度学习的对象检测网络,如Faster RCNN、YOLO、SSD,在各种类型的检测任务中表现出优异的性能。与上述网络相比,DETR是一种更直接的端到端检测方法,因为它不需要许多手动设计的组件。

作为第一个开始使用transformer进行对象检测的方法,DETR的亮点是将变换器应用于视觉任务,将自然语言处理(NLP)和计算机视觉(CV)任务联系起来。

DETR的结构有三个阶段,第一阶段是基于CNN的特征提取网络,第二阶段是基于transformer的encoder–decoder结构,在第三阶段,解码器的每个输出被传递到共享预测前馈网络(FFN),以预测对象检测的分类和边界框。尽管DETR为目标检测带来的创新是革命性的,但为了更全面地获取信息,在计算注意力时,变换器会对每个图像块进行处理,从而导致大量冗余和处理速度减慢。同时,DETR采用单尺寸特征,而检测小尺寸对象需要高分辨率特征图,因此仍有大量计算。

由于上述缺陷,DETR的原始模型很难在实际应用中实现火灾探测,例如,它在早期火灾探测方面表现不佳,并且对设备要求严格。因此,文章基于DETR的集合预测对其进行了改进。具体而言,采用了一种新的注意力机制来突出重要特征并提高多尺度对象检测的准确性,并结合重新设计编码器-解码器结构的层,降低了模型的复杂性并加快了收敛速度。最后,组合损失函数的应用进一步提高了分类精度,并有助于更精确地定位边界框。结果表明,改进的模型在各种类型的实验中表现良好。

本文的主要创新点如下:

1.借鉴DETR的思想,该方法将集合预测和位置编码应用于可视化火灾探测任务,并基于DETR设计了一个更轻量级、更快速的火灾和烟雾探测模型。

2.为了更好地测试所提出的模型在真实火灾检测中的有效性,构建了三个高质量的数据集,包括真实火灾数据集、真实烟雾数据集、同时具有烟雾和火灾的两个对象数据集。获得的数据由监控摄像头捕获,或从实验中收集,或从授权网站上获取。

3.在所提出的模型中,在特征提取部分添加了轻量级spatial attention和channel attention,在编码器-解码器结构中采用了多尺度变量关注,重新定义了编码器-解码器的结构数量,并在最终预测阶段采用了组合损失函数。实验证明,所提出的网络在所有自建数据集和公共视频集上都表现出优异的性能。

4.模型

近年来,基于transformer的方法开始应用于计算机视觉,DETR率先将transformer应用于目标检测任务。与传统的基于深度学习的方法相比,基于DETR的方法可以利用对象的位置信息,显示出更强的适应性。这篇文章的研究中,提出了一种基于深度学习和DETR的火灾探测系统,该系统可以有效地从监控设备视频中捕获的图像中检测火灾和烟雾。系统的架构如下图所示。

f04da2c3abfa4046b7834b9c8799ac7c.png

A. 烟雾和火灾探测的架构

与DETR相似,所提出的网络模型也由三部分组成:特征提取网络、编码器-解码器结构和预测头。在所提出的网络的开头,特征提取网络中的主干网络从输入图像中提取特征,并且在主干网络后面添加了基于归一化的注意力机制,以通过使用权重的贡献因子来改进注意力机制。此外,归一化特征图有助于位置信息的编码。

在所提出的网络的下一部分中,编码器-解码器结构由3个编码器层和6个解码器层组成,并添加了多尺度可变形注意机制,以稀疏特征并增强具有多尺度特征的对象的检测性能。就像DETR一样,所提出的网络的最后一部分是预测头,在FFN之后输出对象的分类和边界框。所提出的网络模型的结构如下图所示。

7247e7f582438a1a7903ed9e4a2354c7.png

B.特征提取网络

在特征提取网络中,ResNeXt50(类似于Inception系列的剩余网络ResNet50)被用作主干网络。ResNet作为最流行的主干网络,避免了深度网络中的梯度问题,从而使更深的网络结构可以获得更多的信息和更丰富的特征。与ResNet相比,ResNet和ResNeXt(Xie等人,2017)都采用了拆分-转换-合并策略,即拆分输入特征(拆分)、分别处理分离的输入特征(转换)和合并输出(合并)。

然而,ResNeXt简化了Inception系列中的分支方法,使其模块化且每个模块一致。ResNeXt的结构具有很强的可扩展性,在DETR中使用时,在计算量相同的情况下,其性能优于ResNet。

利用注意力机制

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值