这里写自定义目录标题
Triple-Domain Feature Learning With Frequency-Aware Memory Enhancement for Moving Infrared Small Target Detection
这篇论文令我映像最深刻的是其对齐器的设计。同时纪老师和叶老师的理论功底真的很扎实,每个design都有motivation,是学习的榜样。
对齐器
首先,对齐器有两个变量,其中一个是参考帧融合而得到的参数。
K
M
a
n
d
V
M
K_M\ and\ V_M
KM and VM
其中
K
M
K_M
KM和
V
M
V_M
VM是经过语义提取,语义是参考帧和当前帧一并提取,位置信息不一定准确。
K
Q
a
n
d
V
Q
K_Q\ and\ V_Q
KQ and VQ
其中
K
Q
K_Q
KQ和
V
Q
V_Q
VQ是属于浅层信息,位置准确。
通过如下公式得到定位编码,
M
s
=
S
o
f
t
m
a
x
(
K
M
K
˙
Q
)
M_s= Softmax(K_M\dot K_Q)
Ms=Softmax(KMK˙Q)
这样就可以得到深度特征与浅层位置的一个map,
M
s
M_s
Ms.并将
M
s
M_s
Ms作为一个位置编码器对需要对齐的特征
V
Q
V_Q
VQ进行对齐。
F
s
=
M
s
⋅
V
M
F_s = M_s\cdot V_M
Fs=Ms⋅VM
F_s就是
V
M
V_M
VM向
M
s
M_s
Ms对齐后的结果。
问题显而易见,这种对齐是否太过简单粗暴?其实再传统方法中这种问题很明显,但是如今到了深度学习中,大家都搞玄学,也就导致这种想法不容易被察觉了。
Temporal Dynamic Encoding Module
其中一个论述我会很喜欢,高速我们motion feature extraction 要downsample.理由如下:
The shortage of GVOD
目前为啥我们不用主流的光流而用ISTD-specialized 这个论述也可以学习一下: