【学习周报】研究生论文学习周报

学习内容:

  1. Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning

学习时间:

  • 1.30 ~ 2.4

学习笔记:

Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning(RSFD)

在这里插入图片描述
论文链接:https://arxiv.org/abs/2211.15076
论文代码:https://github.com/lzp870/RSFD

1.Abstract

长尾问题(图1所示)阻碍了模型在生成字幕时对低频词进行尝试,低频词出现频率低,但可能携带关键语义,在生成更详细的字幕时起着至关重要的作用。

在这里插入图片描述

本文介绍了一种针对频率扩散的精细语义增强方法(Refined Semantic enhancement method towards Frequency Diffusion ,RSFD),不断感知低频标记的语言表示。

具体而言,提出了一个频率感知扩散模型(Frequency-Aware Diffusion,FAD)来理解低频标记的语义。通过促进吸收低频标记的词来细化字幕。在FAD的基础上,设计了一个发散语义监督器(Divergent Semantic Supervisor,DSS)模块来补偿高频标记在扩散过程中的信息损失,并进一步强调低频标记的语义以缓解长尾问题。

2.Proposed Method

2.1 overview of RSFD

在这里插入图片描述

2.2 Encoder-Decoder Framework
2.2.1 Encoder

对于给定的video帧序列,使用2D CNN提取Image特征,使用3D CNN提取Motion特征,然后送入到HEL(Highway Embedding Layer)进行聚合,最后输送给解码器。

2.2.2 Decoder

解码器模块由自注意层、交叉注意层和前馈层组成。

当FAD对低频词进行扩散后,产生了Diffusion Caption,而Decoder的作用就是将扩散字幕输入到self-Attention层、Cross-Attention层计算注意力权重,再通过Feed Forward网络计算词概率分布。

2.3 Frequency-Aware Diffusion

与ORG-TRL这种需要借助外部语料库,且需要进行大量训练的方式相比,本文提出了FAD模块。

2.3.1 Split of Distinct Frequency Words

由于语料库中词汇的严重不平衡,存在少数高频词汇和大量低频词汇。定义不同频率类别的标记为:
在这里插入图片描述

vid(·) 表示该标记在对应视频中的出现次数vidall(·)表示对应视频的所有字幕中标记的总数
tok表示该标记在整个语料库的所有gt字幕中的出现次数cap表示数据集中的字幕总数

借助这种划分,总共有以下四种情况:

  • 当一个词的tok/cap值小于规定值时,表明该词在整个语料库中出现的比例较小,那么有以下两种情况:

    1. 如果tok在当前视频中出现的频率较高,代表当前词对于该视频来说具有代表性,并且与其他视频关联小,因此可以标记位UMT(unmarked tokens)
    2. 反之,说明该词在该视频乃至整个语料库中出现次数较少,可以视为低频词LFT(low-frequency tokens)
  • 当一个词的tok/cap值大于等于规定值时,表明该词在整个语料库中出现的比例较大,那么有以下两种情况:

    1. 如果tok在当前视频中出现的频率较高,代表当前词对于该视频乃至整个语料库来说都比较常见,因此可以标记位HFT
    2. 反之,说明该词对于当前视频来说出现频率低,仍可以视为低频词LFT
2.3.2 Noising Frequency Diffusion

本文将低频标记视为噪声,加入到高频标记中进行扩散。分别定义 T o k e n m L , T o k e n n H Token^L_m,Token^H_n TokenmLTokennH为低频标记、高频标记的特征序列,相似矩阵 S 用来刻画 第 i 个 LFT 与 第 j 个 HFT 的语义相似程度:
在这里插入图片描述

与 DDPM 和 TimeGrad 先学习噪声然后去噪不同,本文的RSFD模型只学习低频标记,而不管如何去除它们。通过在高频单词中加入适当的低频单词作为噪声,RSFD可以生成相对较少使用但更精炼的单词。

2.4 Divergent Semantic Supervisor

在 FAD 中加入低频噪声语义会对高频词语义造成一定程度的限制,为了补充中心高频标记的语义以及促进低频标记的生成,DSS 为中心标记提供了其相邻标记的上下文线索。

在这里插入图片描述

最终,根据Decoder计算的损失 L t L_t Lt以及DSS计算得到的损失 L d i v L_{div} Ldiv,最终损失计算公式为:

在这里插入图片描述

3.Experimental Results

3.1 Performance comparison with the state-of-the-arts on MSR-VTT and MSVD

在这里插入图片描述

3.2 Performance comparison of different configurations of window size in DSS module on MSR-VTT and MSVD. The best results are shown in bold

在这里插入图片描述

3.3 Qualitative Results

在这里插入图片描述

学习总结:

这篇文章主要从video caption任务中常见的长尾问题入手,首先设计了FAD模块,通过语义空间建立低频词和高频词之间的联系,实现低频词到高频词的映射;又考虑到低频词扩散会对高频词的语义产生影响,设计了DSS模块计算扩散损失,从而让模型不仅能够提高低频词的重要性,还能保证高频词的语义不受低频词扩散的影响,最终在输出字幕时能够更多地输出含有重要语义信息的低频词,从而在一定程度上解决了长尾问题。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值