Triple-Domain Feature Learning With Frequency-Aware Memory Enhancement for Moving ISTD

Triple-Domain Feature Learning With Frequency-Aware Memory Enhancement for Moving Infrared Small Target Detection

这篇论文令我映像最深刻的是其对齐器的设计。同时纪老师和叶老师的理论功底真的很扎实,每个design都有motivation,是学习的榜样。

对齐器

在这里插入图片描述
首先,对齐器有两个变量,其中一个是参考帧融合而得到的参数。
K M   a n d   V M K_M\ and\ V_M KM and VM
其中 K M K_M KM V M V_M VM是经过语义提取,语义是参考帧和当前帧一并提取,位置信息不一定准确。
K Q   a n d   V Q K_Q\ and\ V_Q KQ and VQ
其中 K Q K_Q KQ V Q V_Q VQ是属于浅层信息,位置准确。
通过如下公式得到定位编码,
M s = S o f t m a x ( K M K ˙ Q ) M_s= Softmax(K_M\dot K_Q) Ms=Softmax(KMK˙Q)
这样就可以得到深度特征与浅层位置的一个map, M s M_s Ms.并将 M s M_s Ms作为一个位置编码器对需要对齐的特征 V Q V_Q VQ进行对齐。
F s = M s ⋅ V M F_s = M_s\cdot V_M Fs=MsVM
F_s就是 V M V_M VM M s M_s Ms对齐后的结果。
问题显而易见,这种对齐是否太过简单粗暴?其实再传统方法中这种问题很明显,但是如今到了深度学习中,大家都搞玄学,也就导致这种想法不容易被察觉了。

Temporal Dynamic Encoding Module

其中一个论述我会很喜欢,高速我们motion feature extraction 要downsample.理由如下:
在这里插入图片描述

The shortage of GVOD

目前为啥我们不用主流的光流而用ISTD-specialized 这个论述也可以学习一下:在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值