图文检索(11):Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval


发布时间(2024 ACM)


标题:用于零样本组合图像检索的细粒度文本反转网络

摘要

组合图像检索CIR:参考图像 + 修改文本 --》检索图像
由于数据标注困难,转向zero-shot,没有注释三元组?
传统
CIR转换成T2I,将参考图像先变成文本然后检索。
缺点:图像反转文本过程可能粗粒度。
本文
细粒度文本反转FTI4CIR(Finegrained Textual Inversion Network for ZS-CIR)
结构:
1)细粒度伪词标记映射:将图像映射到一个面向主题的伪词标记和几个面向属性的伪词标记
2)基于三重字幕的语义正则化:基于 BLIP 生成的图像字幕模板将细粒度伪词标记与真实词标记嵌入空间联合对齐

3 FTI4CIR

3.1 细粒度 pseudo-word token 映射

面向主题
1)CLIP 得到全局向量
2)MLP 将全局向量映射到主题词

面向属性
局部属性抽取
1)输入:n 个 query,m 个局部 patch
2)输出:经过 transformer 之后,得到 n 个属性的 query‘

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值