- 博客(9)
- 收藏
- 关注
原创 MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt
结合 RGB、近红外(NIR)、热红外(TIR)可补偿单模态的弱点,但现有多模态融合方法要么泛化能力不足,要么计算复杂度高(尤其是多模态自注意力的二次方复杂度)。对中间特征先经线性→GELU→线性,再与 FFN 输出相加,增强任务特定信息的注入,同时仅需少量参数和 FLOPs 。:在后续层对上一层各模态 prompt 做平均融合,再以残差方式注入到本层 prompt,层层累积多模态互补信息;:将三路模态的 tokens 串联为长序列,整体输入 Mamba 块,挖掘跨模态交互;
2025-04-23 11:03:46
795
原创 ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Langu
问题识别:首次指出 Contrastive Decoding 会损害生成质量并拖慢推理速度。机制洞察:通过中间层注意力分析,发现视觉信息在融合过程中的弱势地位。方法创新:提出,无需额外训练或对比样本,直接在融合层增强视觉信号。实验验证:在多种模型与多项基准上,均证明 VAF 可有效降低幻觉、保持生成质量并无推理开销。。
2025-04-17 10:06:39
1103
原创 Multi-Modal Feature Pyramid Transformer for RGB-Infrared Object Detection
两大主要挑战:•RGB和红外图像在视觉上存在很大差异:RGB图像关注颜色和纹理,而红外图像主要传递温度和物体的形状信息。这种差异使得直接融合两种信息难以获得有效的互补特征。•在实际应用中,RGB与红外图像往往存在微小的空间错位(misalignment),使得两模态的目标位置不完全一致,从而加剧了融合难度。论文的核心问题就是如何设计一个高效且鲁棒的融合机制,使得能够充分挖掘两种模态的互补信息,并对齐二者的不一致情况,从而提升检测性能。
2025-04-09 20:53:24
844
原创 Stabilizing Multispectral Pedestrian Detection With Evidential Hybrid Fusion
这里,RoIc 是RGB通道的候选框,RoIt 是热成像通道的候选框,RoIo 是融合后的最终候选区域。:相比传统概率加权,该方法能够更合理地融合多个模态的信息,并对不可靠的模态进行降权处理。:该模块在不增加额外训练参数的情况下,提高模态之间的信息交互,提高检测准确度和鲁棒性。高不确定性时,模型减少该模态的影响,提高整体检测可靠性。,分别在RGB和热成像上提取候选行人区域(RoIs)。处理RGB图像中的RoI区域,提取特征并进行分类回归。处理热成像中的RoI区域,提取特征并进行分类回归。
2025-03-26 20:51:53
926
原创 自注意力(Self-Attention) vs 交叉注意力(Cross-Attention)
是两种常见的注意力机制,它们的主要区别在于。在 Transformer 结构中,
2025-03-20 18:09:05
575
原创 Removal then Selection: A Coarse-to-Fine Fusion Perspective for RGB-Infrared Object Detection
近年来,利用可见光( RGB )和热红外( IR )图像进行目标检测受到了广泛关注,并在多个领域得到了广泛的应用。通过利用RGB和IR图像之间的互补特性,目标检测任务可以在各种光照条件下实现可靠和鲁棒的目标定位,从白天到夜间环境。现有的多模态目标检测方法大多直接将RGB和IR图像输入到深度神经网络中,导致检测性能较差。我们认为,这个问题不仅来自于有效整合多模态信息的挑战,而且来自于RGB和IR模态中冗余特征的存在。代码:关键词:红外目标检测、粗精融合、多传感器融合、尺度感知专家混合。
2025-03-18 16:38:29
730
原创 目标检测中一对一匹配和一对多匹配的区别
在训练过程中,通过计算每个预测框与所有真实目标的匹配成本,然后使用匈牙利算法找到使总成本最小的匹配方式,即每个真实目标被分配给一个唯一的预测框,而剩余的预测框则被归类为背景或无目标。在传统的目标检测方法中,比如Faster R-CNN或YOLO,通常会有多个锚框(anchor boxes)与真实目标进行匹配,这可能导致多个预测框对应同一个真实目标,因此需要NMS来去除冗余的预测。在DETR中,损失函数的设计是关键,它通过计算预测框和真实框之间的匹配成本,然后使用匈牙利算法找到最优的一对一匹配。
2025-03-17 15:01:19
196
原创 一个可以实现加减乘除功能的计算器,利用switch进行用户交互,传递需要操作的两个数(没有UI页面)
【代码】一个可以实现加减乘除功能的计算器,利用switch进行用户交互(没有UI页面)
2025-03-17 14:54:21
85
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人