![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
细粒度跨模态检索
文章平均质量分 92
细粒度跨模态检索相关工作,包括常见细粒度跨模态检索和语言行人检索等任务。
酥三苹
Embodied AI+多模态方向硕士一枚。
展开
-
论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!
局部隐式推理就是做了一个跨模态的MLM任务,首先对文本描述序列进行随机单词屏蔽,然后使用交叉注意力机制和自注意力机制进行跨模态融合,然后对屏蔽单词进行预测,由此完成模型的细粒度对其学习。同样的,对于自然语言描述进行相关的名词抽取、语句分析等,提取住一些关键的名词的特征作为描述语言的局部特征,然后进行一个显示的局部匹配。隐式推理部分就是借鉴了MLM任务的思想,即按照BERT模型的方式对语言进行随机掩码,然后使用一个跨模态注意力机制交互语言和图像信息,最后预测出相应的掩码单词,以此来提升模型的细粒度对齐能力。原创 2023-05-07 11:08:57 · 3969 阅读 · 15 评论 -
基于自然语言描述的行人检索 Text-based Person Retrieval - 常用数据集 CUHK-PEDES、ICFG-PEDES、RSTPReid
博主是做多模态相关的,最近刚刚接触了语言行人检索 (Text-based Person Retrieval)这个任务,觉得挺有意思,开一个专栏来记录一下该任务的常用数据集和一些经典工作。语言行人检索应该算是多模态检索和行人重识别两个任务的交叉子任务,任务本身并不难理解,就是给定一段文本描述当作查询 query,然后检索到所描述的行人图片即可,如下图所示。同时,在待检索的图像数据库中,是存在同一人物的不同照片的,它们在数据集中标注的id是一样的,跟ReID还有点关系。存在重识别。原创 2023-05-06 20:21:00 · 3841 阅读 · 11 评论