自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 (CoOp)Learning to Prompt for Vision-Language Models

CLIP将图像及其文本描述放在一起,排除特征空间中不匹配的对(将图像和文本在公共特征空间中对齐)。 通过大规模预训练,模型可以学习不同的视觉概念,并可以通过提示轻松转移到任何下游任务。CoOp——第一个将prompt learning应用于大视觉语言模型。自动化提示工程(prompt engineering)。CoOp旨在促进视觉语言模型在下游数据集中的适应和部署。CoOp 使用可学习向量(learnable context)对提示的上下文单词进行建模,这些向量可以使用随机值或预训练的单词嵌入进行初始化。

2024-07-07 11:27:11 530

原创 【论文阅读】人群计数(Crowd Couting)| RGBT-CC | Cross-Modal Collaborative Representation Learning

在这项工作中,我们发现结合光学和热信息可以极大地帮助识别行人。为了促进该领域的未来研究,我们引入了大规模 RGBT 人群计数 (RGBT-CC) benchmark,其中包含 2,030 对 RGB 热图像以及 138,389 个带注释的人。此外,为了促进多模态人群计数,我们提出了一个跨模态协作表示学习框架,该框架由多个特定模态分支、一个模态共享分支和一个信息聚合分发模块(IADM)组成,以充分捕获不同模态的互补信息。

2024-04-07 17:08:47 1734 1

原创 (EAEF)Explicit Attention-Enhanced Fusion for RGB-Thermal 人群计数(Corwd Counting )| RGBT | MultiModal

该框架由image encoder、thermal encoder和decoder组成。所提出的显式注意力增强融合(EAEF)应用于两个编码器之间,以融合多尺度的特征。图2展示了基于 ResNet 构建的语义分割网络。请注意,该框架自然会在不同的任务上使用不同的backbone。图2。

2024-04-05 16:29:01 1277

原创 【论文阅读笔记】人群计数(Crowd Counting)| 密集群体分析

在 PET 中,有两个要素至关重要:i)点查询四叉树的设计;ii)渐进式矩形窗口注意机制。前者自适应地生成查询点来解决密集人群预测,后者提高了效率。PET 的整体架构(图2)包括四个组件:a CNN backbone, an efficient encoder-decoder transformer, a point-query quadtree, and a prediction head。图2图 2:PET 的整体架构。我们首先使用CNN backbone来提取图像表示 F。

2024-04-02 14:39:59 2759 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除