论文分享|ACMMM2024‘北航|利用大模型扩充正负例提升组合图像检索的对比学习性能

宣传推介一下笔者的第一篇一作论文,已被ACMMM2024接收。本文面向组合图像检索(Composed Image Retrieval CIR)任务提出了SPN4CIR基于大模型的正负例扩充技术,有效提升了对比学习性能。

论文题目:Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives

来源:MM2024/北航/笔者一作论文

方向:多模态检索

开源地址:https://github.com/BUAADreamer/SPN4CIR

任务介绍

考虑到大家可能不了解这个任务,先做个简要介绍。已经熟悉的读者可以直接跳过。

如下图,区别于图像检索(图搜图 Image Recognition/Retrieval)或者图文检索(文搜图 Text-to-Image Retrieval),组合图像检索是利用参考图像(Reference Image)和一段修改文本(Modified Text)作为组合输入对(Composed Query),搜索目标图像(Target Image)。标注好的(参考图像,修改文本,目标图像)组成了CIR任务的正例三元组

img

动机

CIR任务的模型一般使用Dual Encoder的架构,利用对比学习训练。即对于组合输入对得到一个query表征,对目标图像得到target表征,让匹配的query和target表征互相拉近,不匹配的query和target表征彼此推远。

一般的批内对比学习可用如下公式表示(B代表批大小,一般为128左右;tau代表温度系数,一般为0.01左右)。

img

对比学习的性能依赖于正例和负例的数量,MoCo࿰

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值