摘要
- Multi-change captioning旨在用自然语言描述图像对中的复杂变化。和图像字幕相比,这个任务要求模型具有更高层次的认知能力来推理任意数量的变化。
- 本文提出一种新的上下文感知差异提取网络(CARD)。给定一个图像对,CARD首先解耦聚合所有公共/差异上下文特征。然后,设计一致性和独立性约束,以保证公共/差异上下文特征的alignment/discrepancy。此外,公共上下文特征引导模型挖掘局部不变的特征,并从这对特征中减去,提取局部不同的特征。差异上下文特征增强了局部差异特征,以确保所有的变化都被提炼出来。以此得到所有变化的全方位表示,并通过一个transformer解码器生成语言句子。
- 文章链接:https://arxiv.org/abs/2405.20810
- 代码链接:GitHub - tuyunbin/CARD: [ACL 2024] This is the Pytorch code for our paper "Context-aware Difference Distilling for Multi-change Captioning".
动机
- 之前的研究取得了进展,但是还存在一些局限性。
- 在视点变化下,两幅图像之间的直接减法在归纳为未对齐的图像对上效果很差,如