Multimodal Image-Text Representation Learning for Sketch-Less Facial Image Retrieval
发布时间(2024 IEEE)
标题:用于无草图面部图像检索的多模态图像文本表示学习
摘要
思路:
1)预训练模型:对齐文本和图像
2)sketch和text的多尺度特征
无草图人脸图像检索 (SLFIR) 框架旨在打破绘制高质量人脸草图需要高超的技巧和大量时间的障碍,它使用尽可能少的笔画的部分草图进行检索。然而,这种早期草图通常只包含局部细节,导致检索性能不佳。在本研究中,我们提出通过将草图与先前的人类语义知识融合来学习表示,以提高早期检索性能。具体而言,(1) 基于 LAION-Face 数据集,构建面部语言图像预训练 (FLIP) 模型以学习人脸图像和文本的对齐表示;(2) 随后,以 FLIP 为主干,提取并融合草图和文本的多尺度特征以学习最终检索的有效表示。 所提出的方法在所有两个公共数据集上均实现了最先进的早期检索性能,并在实际测试中表现出良好的泛化能力。
方法
1 动机
2 FLIP
架构
图像编码器 + 文本编码器 + 图像-文本交叉注意
损失函数
ITC对比损失
ITM匹配损失:与分类类似的交叉熵损失
3 部分sketch的多模态表示
全局语义文本生成
1)描述人脸特征
2)使用LL