酥三苹-CSDN博客

原创论文总结 Maps for Navigation —— Map-Based Model for VLN、ON and VN

这里总结了一下视觉语言导航、目标物体导航、视觉导航等领域中，与map memory有关的论文；现在VLN中相关的SOTA方法几乎都跟map有关系，或者是拓扑地图或者是栅格地图，这里进行总结方便以后阅读。错误和补充欢迎评论。

2023-11-25 16:49:34 182

原创论文笔记：CVPR2023 IRRA—隐式推理细粒度对齐模型，语言行人检索任务新SOTA，CUHK-PEDES数据集Rank-1可达73.38%！

局部隐式推理就是做了一个跨模态的MLM任务，首先对文本描述序列进行随机单词屏蔽，然后使用交叉注意力机制和自注意力机制进行跨模态融合，然后对屏蔽单词进行预测，由此完成模型的细粒度对其学习。同样的，对于自然语言描述进行相关的名词抽取、语句分析等，提取住一些关键的名词的特征作为描述语言的局部特征，然后进行一个显示的局部匹配。隐式推理部分就是借鉴了MLM任务的思想，即按照BERT模型的方式对语言进行随机掩码，然后使用一个跨模态注意力机制交互语言和图像信息，最后预测出相应的掩码单词，以此来提升模型的细粒度对齐能力。

2023-05-07 11:08:57 3409 15

weixin_44110393的博客

原创论文总结 Maps for Navigation —— Map-Based Model for VLN、ON and VN

原创论文笔记：CVPR2023 IRRA—隐式推理细粒度对齐模型，语言行人检索任务新SOTA，CUHK-PEDES数据集Rank-1可达73.38%！

原创基于自然语言描述的行人检索 Text-based Person Retrieval - 常用数据集 CUHK-PEDES、ICFG-PEDES、RSTPReid

原创 Referring Video Object Segmentation 视频参考分割常用数据集介绍A2D、JHMDB、Ref-Youtube-VOS、Ref-DAVIS17

原创论文笔记：InternImage—基于可变形卷积的视觉大模型，超越ViT视觉大模型，COCO 新纪录 64.5 mAP！

原创国科大--多媒体分析与理解--复习习题整理

原创国科大--多媒体分析与理解--2020考试试题

原创国科大--多媒体分析与理解--2019考试试题

原创国科大--多媒体分析与理解--2018考试试题

原创国科大--多媒体分析与理解--2022考试回忆

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器（四）

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器（三）

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器（二）

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器（一）

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器（零）

空空如也

空空如也