自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 论文总结 Maps for Navigation —— Map-Based Model for VLN、ON and VN

这里总结了一下视觉语言导航、目标物体导航、视觉导航等领域中,与map memory有关的论文;现在VLN中相关的SOTA方法几乎都跟map有关系,或者是拓扑地图或者是栅格地图,这里进行总结方便以后阅读。错误和补充欢迎评论。

2023-11-25 16:49:34 182

原创 论文笔记:CVPR2023 IRRA—隐式推理细粒度对齐模型,语言行人检索任务新SOTA,CUHK-PEDES数据集Rank-1可达73.38%!

局部隐式推理就是做了一个跨模态的MLM任务,首先对文本描述序列进行随机单词屏蔽,然后使用交叉注意力机制和自注意力机制进行跨模态融合,然后对屏蔽单词进行预测,由此完成模型的细粒度对其学习。同样的,对于自然语言描述进行相关的名词抽取、语句分析等,提取住一些关键的名词的特征作为描述语言的局部特征,然后进行一个显示的局部匹配。隐式推理部分就是借鉴了MLM任务的思想,即按照BERT模型的方式对语言进行随机掩码,然后使用一个跨模态注意力机制交互语言和图像信息,最后预测出相应的掩码单词,以此来提升模型的细粒度对齐能力。

2023-05-07 11:08:57 3409 15

原创 基于自然语言描述的行人检索 Text-based Person Retrieval - 常用数据集 CUHK-PEDES、ICFG-PEDES、RSTPReid

博主是做多模态相关的,最近刚刚接触了语言行人检索 (Text-based Person Retrieval)这个任务,觉得挺有意思,开一个专栏来记录一下该任务的常用数据集和一些经典工作。语言行人检索应该算是多模态检索和行人重识别两个任务的交叉子任务,任务本身并不难理解,就是给定一段文本描述当作查询 query,然后检索到所描述的行人图片即可,如下图所示。同时,在待检索的图像数据库中,是存在同一人物的不同照片的,它们在数据集中标注的id是一样的,跟ReID还有点关系。存在重识别。

2023-05-06 20:21:00 3081 11

原创 Referring Video Object Segmentation 视频参考分割 常用数据集介绍A2D、JHMDB、Ref-Youtube-VOS、Ref-DAVIS17

Referring Video Object Segmentation 视频参考分割 常用数据集介绍A2D、JHMDB、Ref-Youtube-VOS、Ref-DAVIS17

2023-01-14 18:24:33 1364 3

原创 论文笔记:InternImage—基于可变形卷积的视觉大模型,超越ViT视觉大模型,COCO 新纪录 64.5 mAP!

论文笔记:InternImage—基于可变形卷积的视觉大模型,超越ViT视觉大模型,COCO 新纪录 64.5 mAP!

2023-01-12 22:15:35 1952 6

原创 国科大--多媒体分析与理解--复习习题整理

国科大--多媒体分析与理解--复习习题整理

2023-01-09 17:37:35 473 1

原创 国科大--多媒体分析与理解--2020考试试题

国科大--多媒体分析与理解--2020考试试题

2023-01-06 22:05:55 180

原创 国科大--多媒体分析与理解--2019考试试题

国科大--多媒体分析与理解--2019考试试题

2023-01-06 21:38:36 169

原创 国科大--多媒体分析与理解--2018考试试题

国科大--多媒体分析与理解--2018考试试题

2023-01-06 21:28:50 159

原创 国科大--多媒体分析与理解--2022考试回忆

国科大--多媒体分析与理解--2022年考试试题

2023-01-06 21:18:36 352

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器(四)

目录1 复制 MatterSim.cp39-win_amd64.pyd2 添加环境变量3 测试1 复制 MatterSim.cp39-win_amd64.pyd  首先,将上面编译生成的 MatterSim.cp39-win_amd64.pyd 文件,复制到你指定的 PYTHON_EXECUTABLE 目录下的 Lib\site-packages’中,  比如我就将 MatterSim.cp39-win_amd64.pyd 文件复制到 “D:\1-Conda\miniconda3\Lib\site-p

2022-04-14 22:20:07 3251 7

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器(三)

目录1 编译 Matterport3D Simulator 源码1.1 源码下载1.2 编译1 编译 Matterport3D Simulator 源码  在 Windows 下编译 Matterport3D Simulator 稍微有些不方便,需要对 CMakeLists.txt 进行一些修改,如果有更好的方法欢迎大家评论。1.1 源码下载  还是直接在 Github 上搜索 Matterport3D Simulator 的 repo,下载源码。如果用 zip 方式,那么直接在下即可。如果使用

2022-04-14 22:19:51 3616 2

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器(二)

目录1 Matterport3D Simulator 依赖安装1.1 OpenCV1.2 jsoncpp1.3 glm1.4 glew1 Matterport3D Simulator 依赖安装  在官方给的安装说明中,如果在本地进行编译安装,需要准备的依赖如下:Nvidia-driver with CUDA installedC++ compiler with C++11 supportCMake >= 3.10OpenCV >= 2.4 including 3.xOpenGL

2022-04-14 22:19:38 4018

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器(一)

视觉语言导航(Vision and Language Navigation)环境准备篇目录视觉语言导航(Vision and Language Navigation)环境准备篇前言一、编译工具准备二、依赖安装三、编译Matterport3D Simulator仿真器前言  我本科毕业设计是做视觉语言导航任务(Vision and Language Navigation, VLN),想要复现 VLN 的一些经典工作或者是实现自己的 VLN 模型,安装一个 Matterport3D Simulator

2022-04-14 22:19:21 541

原创 Vision-Language Navigation - Windows环境下编译安装Matterport3D Simulator仿真器(零)

目录前言1 Windows下编译工具安装2 Matterport3D Simulator依赖安装3 编译 Matterport3D Simulator 源码4 Conda 虚拟环境调用 Matterport3D Simulator 测试总结前言  我本科毕业设计是做视觉语言导航任务(Vision and Language Navigation, VLN),想要复现 VLN 的一些经典工作或者是实现自己的 VLN 模型,安装一个 Matterport3D Simulator 仿真器必不可少。  Mat

2022-04-14 22:18:40 600 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除