【学习周报】研究生论文学习周报

最新推荐文章于 2024-07-23 14:51:29 发布

Bohemian_mc

最新推荐文章于 2024-07-23 14:51:29 发布

阅读量434

点赞数

文章标签：学习深度学习人工智能

本文链接：https://blog.csdn.net/zzPaulmn/article/details/128885130

版权

学习内容：

Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning

学习时间：

1.30 ~ 2.4

学习笔记：

Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning（RSFD）

在这里插入图片描述
论文链接：https://arxiv.org/abs/2211.15076
论文代码：https://github.com/lzp870/RSFD

1.Abstract

长尾问题（图1所示）阻碍了模型在生成字幕时对低频词进行尝试，低频词出现频率低，但可能携带关键语义，在生成更详细的字幕时起着至关重要的作用。

在这里插入图片描述

本文介绍了一种针对频率扩散的精细语义增强方法（Refined Semantic enhancement method towards Frequency Diffusion ，RSFD），不断感知低频标记的语言表示。

具体而言，提出了一个频率感知扩散模型（Frequency-Aware Diffusion，FAD）来理解低频标记的语义。通过促进吸收低频标记的词来细化字幕。在FAD的基础上，设计了一个发散语义监督器（Divergent Semantic Supervisor，DSS）模块来补偿高频标记在扩散过程中的信息损失，并进一步强调低频标记的语义以缓解长尾问题。

2.Proposed Method

2.1 overview of RSFD

在这里插入图片描述

2.2 Encoder-Decoder Framework

2.2.1 Encoder

对于给定的video帧序列，使用2D CNN提取Image特征，使用3D CNN提取Motion特征，然后送入到HEL（Highway Embedding Layer）进行聚合，最后输送给解码器。

2.2.2 Decoder

解码器模块由自注意层、交叉注意层和前馈层组成。

当FAD对低频词进行扩散后，产生了Diffusion Caption，而Decoder的作用就是将扩散字幕输入到self-Attention层、Cross-Attention层计算注意力权重，再通过Feed Forward网络计算词概率分布。

2.3 Frequency-Aware Diffusion

与ORG-TRL这种需要借助外部语料库，且需要进行大量训练的方式相比，本文提出了FAD模块。

2.3.1 Split of Distinct Frequency Words

由于语料库中词汇的严重不平衡，存在少数高频词汇和大量低频词汇。定义不同频率类别的标记为：
在这里插入图片描述

vid(·) 表示该标记在对应视频中的出现次数	vidall(·)表示对应视频的所有字幕中标记的总数
tok表示该标记在整个语料库的所有gt字幕中的出现次数	cap表示数据集中的字幕总数

借助这种划分，总共有以下四种情况：

当一个词的tok/cap值小于规定值时，表明该词在整个语料库中出现的比例较小，那么有以下两种情况：
1. 如果tok在当前视频中出现的频率较高，代表当前词对于该视频来说具有代表性，并且与其他视频关联小，因此可以标记位UMT（unmarked tokens）
2. 反之，说明该词在该视频乃至整个语料库中出现次数较少，可以视为低频词LFT（low-frequency tokens）
当一个词的tok/cap值大于等于规定值时，表明该词在整个语料库中出现的比例较大，那么有以下两种情况：
1. 如果tok在当前视频中出现的频率较高，代表当前词对于该视频乃至整个语料库来说都比较常见，因此可以标记位HFT
2. 反之，说明该词对于当前视频来说出现频率低，仍可以视为低频词LFT

2.3.2 Noising Frequency Diffusion

本文将低频标记视为噪声，加入到高频标记中进行扩散。分别定义 $Token^L_m，Token^H_n$ 为低频标记、高频标记的特征序列，相似矩阵 S 用来刻画第 i 个 LFT 与第 j 个 HFT 的语义相似程度：
在这里插入图片描述

与 DDPM 和 TimeGrad 先学习噪声然后去噪不同，本文的RSFD模型只学习低频标记，而不管如何去除它们。通过在高频单词中加入适当的低频单词作为噪声，RSFD可以生成相对较少使用但更精炼的单词。

2.4 Divergent Semantic Supervisor

在 FAD 中加入低频噪声语义会对高频词语义造成一定程度的限制，为了补充中心高频标记的语义以及促进低频标记的生成，DSS 为中心标记提供了其相邻标记的上下文线索。

在这里插入图片描述

最终，根据Decoder计算的损失 $L_t$ 以及DSS计算得到的损失 $L_{div}$ ，最终损失计算公式为：

在这里插入图片描述

3.Experimental Results

3.1 Performance comparison with the state-of-the-arts on MSR-VTT and MSVD

在这里插入图片描述

3.2 Performance comparison of different configurations of window size in DSS module on MSR-VTT and MSVD. The best results are shown in bold

在这里插入图片描述

3.3 Qualitative Results

在这里插入图片描述

学习总结：

这篇文章主要从video caption任务中常见的长尾问题入手，首先设计了FAD模块，通过语义空间建立低频词和高频词之间的联系，实现低频词到高频词的映射；又考虑到低频词扩散会对高频词的语义产生影响，设计了DSS模块计算扩散损失，从而让模型不仅能够提高低频词的重要性，还能保证高频词的语义不受低频词扩散的影响，最终在输出字幕时能够更多地输出含有重要语义信息的低频词，从而在一定程度上解决了长尾问题。