论文阅读
文章平均质量分 92
旺旺碎碎冰_
这个作者很懒,什么都没留下…
展开
-
(CoOp)Learning to Prompt for Vision-Language Models
CLIP将图像及其文本描述放在一起,排除特征空间中不匹配的对(将图像和文本在公共特征空间中对齐)。 通过大规模预训练,模型可以学习不同的视觉概念,并可以通过提示轻松转移到任何下游任务。CoOp——第一个将prompt learning应用于大视觉语言模型。自动化提示工程(prompt engineering)。CoOp旨在促进视觉语言模型在下游数据集中的适应和部署。CoOp 使用可学习向量(learnable context)对提示的上下文单词进行建模,这些向量可以使用随机值或预训练的单词嵌入进行初始化。原创 2024-07-07 11:27:11 · 530 阅读 · 0 评论 -
【论文阅读】人群计数(Crowd Couting)| RGBT-CC | Cross-Modal Collaborative Representation Learning
在这项工作中,我们发现结合光学和热信息可以极大地帮助识别行人。为了促进该领域的未来研究,我们引入了大规模 RGBT 人群计数 (RGBT-CC) benchmark,其中包含 2,030 对 RGB 热图像以及 138,389 个带注释的人。此外,为了促进多模态人群计数,我们提出了一个跨模态协作表示学习框架,该框架由多个特定模态分支、一个模态共享分支和一个信息聚合分发模块(IADM)组成,以充分捕获不同模态的互补信息。原创 2024-04-07 17:08:47 · 1734 阅读 · 1 评论 -
(EAEF)Explicit Attention-Enhanced Fusion for RGB-Thermal 人群计数(Corwd Counting )| RGBT | MultiModal
该框架由image encoder、thermal encoder和decoder组成。所提出的显式注意力增强融合(EAEF)应用于两个编码器之间,以融合多尺度的特征。图2展示了基于 ResNet 构建的语义分割网络。请注意,该框架自然会在不同的任务上使用不同的backbone。图2。原创 2024-04-05 16:29:01 · 1277 阅读 · 0 评论 -
【论文阅读笔记】人群计数(Crowd Counting)| 密集群体分析
在 PET 中,有两个要素至关重要:i)点查询四叉树的设计;ii)渐进式矩形窗口注意机制。前者自适应地生成查询点来解决密集人群预测,后者提高了效率。PET 的整体架构(图2)包括四个组件:a CNN backbone, an efficient encoder-decoder transformer, a point-query quadtree, and a prediction head。图2图 2:PET 的整体架构。我们首先使用CNN backbone来提取图像表示 F。原创 2024-04-02 14:39:59 · 2759 阅读 · 8 评论