宣传推介一下笔者的第一篇一作论文,已被ACMMM2024接收。本文面向组合图像检索(Composed Image Retrieval CIR)任务提出了SPN4CIR—基于大模型的正负例扩充技术,有效提升了对比学习性能。
论文题目:Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives
来源:MM2024/北航/笔者一作论文
方向:多模态检索
开源地址:https://github.com/BUAADreamer/SPN4CIR
任务介绍
考虑到大家可能不了解这个任务,先做个简要介绍。已经熟悉的读者可以直接跳过。
如下图,区别于图像检索(图搜图 Image Recognition/Retrieval)或者图文检索(文搜图 Text-to-Image Retrieval),组合图像检索是利用参考图像(Reference Image)和一段修改文本(Modified Text)作为组合输入对(Composed Query),搜索目标图像(Target Image)。标注好的(参考图像,修改文本,目标图像)组成了CIR任务的正例三元组。
动机
CIR任务的模型一般使用Dual Encoder的架构,利用对比学习训练。即对于组合输入对得到一个query表征,对目标图像得到target表征,让匹配的query和target表征互相拉近,不匹配的query和target表征彼此推远。
一般的批内对比学习可用如下公式表示(B代表批大小,一般为128左右;tau代表温度系数,一般为0.01左右)。
对比学习的性能依赖于正例和负例的数量,MoCo