![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
前沿论文解读
文章平均质量分 90
陈子迩
不会写代码的弟弟
展开
-
【CVPR2023】使用轻量 ToF 传感器的单目密集SLAM的多模态神经辐射场
论文标题:Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF Sensor论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Liu_Multi-Modal_Neural_Radiance_Field_for_Monocular_Dense_SLAM_with_a_ICCV_2023_paper.html。原创 2024-01-03 20:23:45 · 1138 阅读 · 0 评论 -
【CVPR2023】可持续检测的Transformer用于增量对象检测
代码已开源:https://github.com/yaoyao-liu/CL-DETR本文旨在解决增量目标检测(IOD)问题,模型需要逐步学习新的目标类别,同时不忘记先前学到的知识。在这个背景下,论文提出了一种创新性的方法,称为ContinuaL DEtection TRansformer(CL-DETR),它基于Transformer架构,并允许有效地使用知识蒸馏(KD)和示例重播(ER)等技术来解决增量学习中的挑战。原创 2023-12-23 20:15:00 · 1296 阅读 · 1 评论 -
【ICCV2023】MMVP:基于运动矩阵的视频预测
本文提出的基于运动矩阵的视频预测框架(MMVP)是一个端到端可训练的双流管道。与以往的方法不同,以往的方法通常在相同的模块内处理运动预测和外观维护,MMVP通过构建外观无关的运动矩阵来解耦运动和外观信息。广泛的实验证明,MMVP在公共数据集上的表现优于最先进的方法,性能提升显著(在PSNR上提高了约1 dB,例如 UCF Sports数据集),而模型大小却显著减小(相当于84%或更小的模型尺寸)。与仅使用最后观察到的帧的信息不同,我们使用所有观察到的信息进行未来合成,并通过重复矩阵乘法来减小较早帧的权重。原创 2023-12-22 22:16:22 · 1816 阅读 · 3 评论 -
深入了解ViT模型(讲解代码)
视觉变换器(ViT)标志着计算机视觉演进的一个显著里程碑。ViT挑战了传统的观点,即图像最好通过卷积层进行处理,证明了基于序列的注意机制可以有效地捕捉图像中复杂的模式、上下文和语义。通过将图像分解为可管理的补丁并利用自我注意力,ViT捕捉了本地和全局关系,使其能够在各种视觉任务中表现出色,从图像分类到物体检测等等。在本文中,我们将深入探讨ViT分类的内部工作原理。ViT的核心思想是将图像视为一系列固定大小的补丁,然后将这些补丁展开并转换为1D向量。原创 2023-12-20 07:00:00 · 2881 阅读 · 0 评论 -
Rethinking Classification and Localization for Object Detection ---对目标检测分类与定位的再思考
我们发现上面的原始doublehead中的每个分支都是关注自己的任务,比如卷积只关注回归操作,全连接关注分类操作,而不同的head不只关注自己的任务对检测器的性能还会有所提升。网络的backbone可以使用常用的网络,比如VGG、resnet,再加上FPN的结构,根据一个ROIPooling输出7×7×256大小的feature map,一般的做法是将这个featuremap接上一个全连接分支,在全连接后面接上一个分支输出预测的BoundingBox位置信息,一个分支输出对应位置的类别信息。原创 2023-12-18 21:41:11 · 890 阅读 · 0 评论 -
Transformer的Q、K、V和Mutil-Head Self-Attention(超详细解读)
举个例子我们在某宝上搜索东西,输入的搜索关键词就是Q,商品对应的描述就是K,Q与K匹配成功后搜索出来的商品就是V。Q、K、V经过Linear然后经过h个Self-Attention,得到h个输出,其中h指的是注意力的头数。更多的头数意味着更强大的模型能力,比如LLM大模型Baichuan-13B中的head数目是40,而Baichuan-7B中的head数目是32。是三个可训练的参数矩阵,输入矩阵X分别与三个矩阵参数进行相乘,相当于进行一次线性变换,得到了Q、K、V。,那Q、K、V是怎么来的呢?原创 2023-11-02 17:59:35 · 10398 阅读 · 0 评论