【CARD】多变化字幕的上下文感知差异提炼(ACL 2024)

摘要

  • Multi-change captioning旨在用自然语言描述图像对中的复杂变化。和图像字幕相比,这个任务要求模型具有更高层次的认知能力来推理任意数量的变化。
  • 本文提出一种新的上下文感知差异提取网络(CARD)。给定一个图像对,CARD首先解耦聚合所有公共/差异上下文特征。然后,设计一致性和独立性约束,以保证公共/差异上下文特征的alignment/discrepancy。此外,公共上下文特征引导模型挖掘局部不变的特征,并从这对特征中减去,提取局部不同的特征。差异上下文特征增强了局部差异特征,以确保所有的变化都被提炼出来。以此得到所有变化的全方位表示,并通过一个transformer解码器生成语言句子。
  • 文章链接:https://arxiv.org/abs/2405.20810
  • 代码链接:GitHub - tuyunbin/CARD: [ACL 2024] This is the Pytorch code for our paper "Context-aware Difference Distilling for Multi-change Captioning".

动机

  • 之前的研究取得了进展,但是还存在一些局限性。
  1. 在视点变化下,两幅图像之间的直接减法在归纳为未对齐的图像对上效果很差,如
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值