学习内容:
- Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning
学习时间:
- 1.30 ~ 2.4
学习笔记:
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning(RSFD)
论文链接:https://arxiv.org/abs/2211.15076
论文代码:https://github.com/lzp870/RSFD
1.Abstract
长尾问题(图1所示)阻碍了模型在生成字幕时对低频词进行尝试,低频词出现频率低,但可能携带关键语义,在生成更详细的字幕时起着至关重要的作用。
本文介绍了一种针对频率扩散的精细语义增强方法(Refined Semantic enhancement method towards Frequency Diffusion ,RSFD),不断感知低频标记的语言表示。
具体而言,提出了一个频率感知扩散模型(Frequency-Aware Diffusion,FAD)来理解低频标记的语义。通过促进吸收低频标记的词来细化字幕。在FAD的基础上,设计了一个发散语义监督器(Divergent Semantic Supervisor,DSS)模块来补偿高频标记在扩散过程中的信息损失,并进一步强调低频标记的语义以缓解长尾问题。
2.Proposed Method
2.1 overview of RSFD
2.2 Encoder-Decoder Framework
2.2.1 Encoder
对于给定的video帧序列,使用2D CNN提取Image特征,使用3D CNN提取Motion特征,然后送入到HEL(Highway Embedding Layer)进行聚合,最后输送给解码器。
2.2.2 Decoder
解码器模块由自注意层、交叉注意层和前馈层组成。
当FAD对低频词进行扩散后,产生了Diffusion Caption,而Decoder的作用就是将扩散字幕输入到self-Attention层、Cross-Attention层计算注意力权重,再通过Feed Forward网络计算词概率分布。
2.3 Frequency-Aware Diffusion
与ORG-TRL这种需要借助外部语料库,且需要进行大量训练的方式相比,本文提出了FAD模块。
2.3.1 Split of Distinct Frequency Words
由于语料库中词汇的严重不平衡,存在少数高频词汇和大量低频词汇。定义不同频率类别的标记为:
vid(·) 表示该标记在对应视频中的出现次数 | vidall(·)表示对应视频的所有字幕中标记的总数 |
---|---|
tok表示该标记在整个语料库的所有gt字幕中的出现次数 | cap表示数据集中的字幕总数 |
借助这种划分,总共有以下四种情况:
-
当一个词的tok/cap值小于规定值时,表明该词在整个语料库中出现的比例较小,那么有以下两种情况:
- 如果tok在当前视频中出现的频率较高,代表当前词对于该视频来说具有代表性,并且与其他视频关联小,因此可以标记位UMT(unmarked tokens)
- 反之,说明该词在该视频乃至整个语料库中出现次数较少,可以视为低频词LFT(low-frequency tokens)
-
当一个词的tok/cap值大于等于规定值时,表明该词在整个语料库中出现的比例较大,那么有以下两种情况:
- 如果tok在当前视频中出现的频率较高,代表当前词对于该视频乃至整个语料库来说都比较常见,因此可以标记位HFT
- 反之,说明该词对于当前视频来说出现频率低,仍可以视为低频词LFT
2.3.2 Noising Frequency Diffusion
本文将低频标记视为噪声,加入到高频标记中进行扩散。分别定义
T
o
k
e
n
m
L
,
T
o
k
e
n
n
H
Token^L_m,Token^H_n
TokenmL,TokennH为低频标记、高频标记的特征序列,相似矩阵 S 用来刻画 第 i 个 LFT 与 第 j 个 HFT 的语义相似程度:
与 DDPM 和 TimeGrad 先学习噪声然后去噪不同,本文的RSFD模型只学习低频标记,而不管如何去除它们。通过在高频单词中加入适当的低频单词作为噪声,RSFD可以生成相对较少使用但更精炼的单词。
2.4 Divergent Semantic Supervisor
在 FAD 中加入低频噪声语义会对高频词语义造成一定程度的限制,为了补充中心高频标记的语义以及促进低频标记的生成,DSS 为中心标记提供了其相邻标记的上下文线索。
最终,根据Decoder计算的损失 L t L_t Lt以及DSS计算得到的损失 L d i v L_{div} Ldiv,最终损失计算公式为:
3.Experimental Results
3.1 Performance comparison with the state-of-the-arts on MSR-VTT and MSVD
3.2 Performance comparison of different configurations of window size in DSS module on MSR-VTT and MSVD. The best results are shown in bold
3.3 Qualitative Results
学习总结:
这篇文章主要从video caption任务中常见的长尾问题入手,首先设计了FAD模块,通过语义空间建立低频词和高频词之间的联系,实现低频词到高频词的映射;又考虑到低频词扩散会对高频词的语义产生影响,设计了DSS模块计算扩散损失,从而让模型不仅能够提高低频词的重要性,还能保证高频词的语义不受低频词扩散的影响,最终在输出字幕时能够更多地输出含有重要语义信息的低频词,从而在一定程度上解决了长尾问题。