自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gorgeous_wxd

疏影横斜水清浅,暗香浮动月黄昏。

  • 博客(414)
  • 资源 (1)
  • 收藏
  • 关注

原创 深度学习框架解读

深度学习框架解读知识点汇总

2023-04-21 15:20:22 784 1

原创 【论文汇总】2D目标检测文章汇总,持续更新

记录自己比较感兴趣的2D目标检测文章。

2022-07-21 16:15:12 2276

原创 【汇总】百宝囊

记录一下看过的一些讲解比较清楚的知识点

2022-07-18 18:57:44 328

原创 【汇总】看过的一些Panel与视频

学术talk

2022-07-04 09:54:50 720

原创 【目标检测】小目标检测相关

小目标检测相关文章和竞赛汇总

2021-07-05 22:36:27 1967 7

原创 【CVPR26-都灵理工大学】INSID3:基于DINOv3的免训练上下文分割方法

在COCO、LVIS、ISIC皮肤病灶、X光胸片、iSAID航拍、SUIM水下等数据集全面领先,胸片领域暴涨**27.8%**。(DINOv2+SAM):不用训练、泛化好,但要两个大模型联动,参数多、推理慢、分割粒度死板,还没法完全发挥特征的潜力。:在特定数据集上训练,本领域很准,但换到医疗、航拍、水下等陌生领域直接拉胯,泛化能力极差。不用调参,直接兼容5张示例,平均再涨**+1.3%~9.5%**,继续保持第一。,超GF-SAM **12.9%**,能精准区分相似干扰实例。

2026-04-07 00:32:00 184

原创 【CVPR26-卢湖川-大连理工】UniMMAD:基于混合专家驱动的特征解压缩实现统一多模态多类别异常检测

的创新范式,打造出首个高效统一的多模态多类别异常检测框架,精度、效率、通用性拉满,是工业质检与医疗影像异常检测的新一代标杆方案。工业检测:MVTec-3D、MVTec-AD、VisA等数据集,图像/像素级指标全面超越专用模型;先把任意多模态输入压缩成通用特征,再解压为对应模态、类别的专属特征,避免模型偷懒式捷径学习。加入特征压缩模块,过滤异常信号、提纯正常特征,兼容任意模态组合输入。多类别方法共用解码路径,不同领域数据互相干扰,误报率高、部署麻烦;模型碎片化严重,内存开销大,还没法轻松适配新类别、新模态。

2026-04-06 09:06:26 226

原创 【CVPR26-韩国高丽大学】聚焦,而非删减:识别信息密集型图像理解中与指令相关的区域

PinPoint通过区域选择与细化的两阶段框架,以“精准聚焦指令相关区域”替代传统的令牌盲目修剪,结合配套的丰富标注数据集和轻量级对比损失训练,让大视觉语言模型在处理信息密集型图像时,既大幅降低了计算开销,又显著提升了推理精度和抗幻觉能力,为LVLMs的高效推理提供了全新的可行方案。:先通过滑动窗口从整幅图像中提取区域级视觉特征,再利用可学习的引导查询构建视觉-文本共同特征空间,通过模态间的特征对齐,用余弦相似度排序并自适应选择占图像总面积一定比例的指令相关区域,摒弃了传统的令牌级筛选思路;

2026-04-05 00:09:40 322

原创 【CVPR26-丹麦技术大学】迈向高质量图像分割:通过惩罚相邻像素提高拓扑精度

SCNP以3行代码的极简实现、计算高效的特性,实现了图像分割拓扑精度的显著提升,适配管状、圆形等多形态结构和主流损失函数/框架,是医疗影像、卫星遥感等拓扑敏感型分割任务的实用优化方案,仅对极小低对比度非管状结构的效果有限。,避开了现有拓扑优化方法“重计算、强限制、难集成”的痛点,为工业界和学术界提供了一种轻量化的图像分割拓扑优化思路,其代码已开源,可直接集成到实际项目中,值得相关领域的开发者尝试!此外,对比二值闭运算等后处理方法,SCNP的拓扑优化效果更优,且无需依赖真值调参,适配性更强。

2026-04-04 11:28:32 531

原创 【arXiv26-Intellindust AI Lab】EdgeCrafter:面向密集预测中轻量级视觉Transformer的任务特定蒸馏与边缘友好设计

另一方面,现有轻量级ViT的设计多为通用型,未针对密集预测的逐像素分析特性做优化,且传统的模型蒸馏技术缺乏任务针对性,大模型的“能力”无法有效传递给小模型,导致轻量级ViT在图像分割、目标检测等密集预测任务中精度表现不佳,难以满足实际应用需求。:区别于传统泛化的模型蒸馏,该技术专为视觉密集预测任务定制,让训练成熟的大尺寸高精度ViT模型,把针对逐像素分析、目标特征提取、区域分割的“专属本领”精准传递给轻量级ViT,而非简单传递通用视觉特征,让小模型能学到密集预测任务的核心能力,大幅提升精度。

2026-04-03 00:09:09 202

原创 【CVPR26-韩国成均馆大学】超越窗口:用于无训练开放词汇语义分割的全局-局部对齐CLIP

成均馆大学提出的GLA-CLIP框架,通过键值扩展、代理锚点、动态归一化三大创新模块,首次彻底解决了无训练开放词汇语义分割中滑动窗口的语义不一致问题,无需额外训练和数据集专属超参数,即可实现跨骨干、跨域、跨模型的高效适配,在提升分割性能的同时兼顾计算效率,为无训练OVSS的实际应用提供了新的高效解决方案。在Cityscapes、ADE20K等数据集上,分割掩码更干净,目标边界更清晰,无错分、漏分问题,如能准确区分道路和人行道,解决ProxyCLIP的错分难题。,替代原窗口内的局部查询。

2026-04-02 00:04:29 272

原创 【CVPR26-邹逸雄-华科】修复目标域像散以实现跨域少样本目标检测

华中科技大学团队首次发现跨域少样本目标检测的目标域散光问题,受人类中央-外周视觉系统启发提出的注意力精修框架,通过前景原型增强、背景原型调制和跨模态语义对齐的协同作用,有效将模型在目标域的分散注意力转化为聚焦模式,在六大基准数据集上刷新SOTA,为跨域少样本检测的注意力优化提供了可借鉴的生物启发式解决方案。(从支持集真实框外的背景区域提取),对背景特征进行调制增强,明确区分目标与背景的边界,减少前景-背景的特征混淆,降低模型对背景的无效注意力;

2026-04-01 00:08:12 166

原创 【CVPR26-高君宇-西北工业大学】QICA:增强零样本目标计数的数量感知与空间感知能力

将离散数量值转化为连续嵌入表示,训练时动态生成包含真实数量和反事实数量的文本提示,通过耦合函数实现视觉-语言提示的双向梯度流动,让模型学习细粒度数量区分能力;QICA框架通过数量感知的协同提示、基于相似度图的成本聚合解码和全流程的多级数量对齐损失,首次实现了零样本目标计数中数量感知与空间感知的双重提升,在通用、跨域、高密度场景下均取得优异性能,同时兼顾了模型效率,为零样本目标计数的实际应用奠定了基础,也为视觉-语言模型在计数类任务中的适配提供了新思路。

2026-03-31 00:25:57 154

原创 【CVPR26-索尼】EW-DETR:通过增量低秩检测Transformer实现动态世界目标检测

索尼印度研究院联合印度国际信息技术研究所提出的EW-DETR框架,首创了演化世界目标检测(EWOD)范式,通过增量LoRA适配器、查询归一化目标适配器和熵感知未知混合器三大核心模块,实现了无样本约束下的增量类别学习、跨域场景适配和精准未知检测,同时提出FOGS综合评价指标,大幅超越现有方法,为目标检测模型在动态真实世界的落地应用提供了全新的解决方案和研究方向。同时通过可学习的融合权重,结合分类器输出的未知概率和目标性推导的未知概率,生成最终的未知分数,还会对已知类分数做软抑制,进一步提升未知检测的准确性。

2026-03-30 00:16:13 440

原创 【CVPR26-王磊-空天院】GeoViS:面向遥感视觉定位的地理空间奖励视觉搜索

中科院等多校联合提出的GeoViS框架,通过地理空间奖励引导的树形层级视觉搜索与条件化视觉定位的创新结合,以及统一的VisualRAG模型设计,有效解决了遥感影像视觉定位中复杂空间关系推理和小目标低有效分辨率的核心难题,在五大基准数据集上实现SOTA性能,为遥感多模态大模型的视觉定位提供了通用、可迁移的新范式。:相比单步推理的基线模型,GeoViS能有效处理长文本、复杂空间关系的查询,精准定位千米级影像中的小目标,解决了基线模型易误定位、无法理解空间关系的问题。

2026-03-29 00:18:51 192

原创 【CVPR26-莫纳什大学】在不确定性中思考:利用潜在熵感知解码减轻多模态大推理模型的幻觉问题

研究团队从token级不确定性出发,揭示了过渡词、高熵状态与多模态模型幻觉的内在关联,并提出轻量级即插即用的LEAD解码策略,通过熵感知的动态推理模式切换和视觉锚点注入,在多款多模态大推理模型的通用及专业基准数据集上,实现了幻觉的显著缓解和推理性能的全面提升,且兼顾了推理效率和生成文本质量,为多模态推理模型的幻觉缓解提供了高效、易部署的新方案。:在部分超复杂的视觉推理任务中,模型进入高熵状态的次数更多,推理模式切换更为频繁,虽能缓解幻觉,但推理效率的提升幅度有所下降;

2026-03-28 00:08:14 210

原创 【CVPR26-英国边山大学】仅用于训练的异质图像-补丁-文本图监督:助力少样本学习适配器的发展

在所有数据集和所有shot设置下,TOGA均大幅超越现有主流方法(包括Tip-Adapter、GraphAdapter、CLIP-Adapter等适配器方法,以及CoOp、MaPLe等提示学习方法),16-shot平均准确率达82.3%,远超GraphAdapter的76.2%、Tip-Adapter-F的75.7%。的双目标策略:一方面用交叉熵损失让学生模型学习教师模型的知识,另一方面用焦点损失对教师模型做正则化,让教师模型专注于难样本和细粒度样本的学习,避免“躺平”在简单样本上,保证监督信号的质量。

2026-03-27 00:58:36 212

原创 【CVPR26-单彩峰-南京大学】O2MAG:用于异常检测的单样本高保真异常图像生成

O2MAG提出了一种免训练、单步的高保真异常图像生成方法,解决了传统异常图像生成耗时、失真、泛化性差的问题,能直接提升下游异常检测模型的性能,为计算机视觉异常检测领域的样本制作提供了全新且高效的解决方案,虽在极端异常、低质输入、视频场景上仍有局限,但整体极具实际应用价值。:不同于以往生成的“假异常”,O2MAG能精准捕捉真实异常的视觉特征,生成的异常图像在纹理、细节、色彩上都和真实场景高度契合,异常区域的位置、形态也更符合实际情况,不会出现失真、违和的问题。的异常图像生成方法,解决样本制作的难题。

2026-03-26 00:15:09 342

原创 【CVPR26-郭峰-山东大学】MixerCSeg:一种通过解耦曼巴注意力实现裂缝分割的高效混合器架构

以DeepCrack数据集为例,mIoU达0.9151、F1达0.9205,较次优模型SCSegamba分别提升1.43%、1.04%,较混合架构模型MambaVision提升1.78%、4.61%,在高背景噪声、大宽度裂缝的Crack500数据集上,F1也达到0.7755的最优值。,训练内存占用仅1190 MiB。:首次基于Mamba隐式注意力解耦令牌,让CNN、Transformer、Mamba形成协同架构,而非简单堆叠,充分发挥各架构在局部、全局、序列上下文特征捕捉的优势;

2026-03-25 00:04:19 173

原创 【CVPR26-吴高昌-东北大学】RAID:检索增强的异常检测

RAID首次将RAG范式深度融入无监督异常检测,通过分层向量数据库实现粗到精的高效精准检索,结合引导式MoE滤波网络完成噪声抑制和像素级精细异常生成,一举解决传统方法匹配噪声、小样本泛化差、跨场景适配难的核心问题,在四大工业基准数据集的全shot、小样本、跨数据集场景中全面刷新SOTA,为无监督异常检测的工业落地提供了更高效、更通用的全新方案。RAID框架便由此诞生。随样本数增加,性能持续提升,4-shot时I-AUROC达96.9%,且全程保持像素级定位的高精度,解决了传统方法小样本泛化差的痛点。

2026-03-24 00:01:52 227

原创 【CVPR26-程塨-西北工业大学】YOLO真的需要在每个训练轮次都查看所有训练图像吗?

这种“推理快、训练慢”的矛盾,本质是因为YOLO默认所有图片在训练全程的重要性都一样,忽略了模型的学习规律——随着训练推进,有些图片会从“难学”变“易学”,反复训练这些已掌握的图片,只会白白消耗计算资源,拖慢整体训练进度。:提速的同时,模型的检测精度没有任何损失,反而有小幅提升。,能实现“只看一次”就完成目标检测,但它的训练过程却和“高效”完全不沾边:传统YOLO训练时,每一个训练轮次(epoch)都要把所有训练图片过一遍,哪怕很多图片模型早就学透了,还是要反复计算,造成大量的冗余操作。

2026-03-23 00:07:00 401

原创 【arXiv26-王海鹏-复旦大学】CrossEarth-SAR:一种以合成孔径雷达为中心的十亿级地理空间基础模型,用于领域泛化语义分割

CrossEarth-SAR作为首个十亿级SAR中心的地理空间基础模型,通过物理引导的稀疏MoE架构、大规模混合标签数据集和首个统一跨域基准,大幅突破了SAR语义分割的跨域泛化瓶颈,为SAR的规模化、工程化应用奠定了核心基础,也为遥感领域专用大模型的研发提供了全新范式。:在换区域、换极化、换复数值等8类单一跨域任务中,CrossEarth-SAR全系列版本均大幅超越现有主流模型,其中大版本(L)在极化跨域任务中,准确率较基线模型DINOv2提升8.1%~15.5%,复数值跨域任务提升4.8%~5.1%;

2026-03-22 01:43:03 208

原创 【CVPR26-雷涛-陕西科技大学陕西省人工智能联合实验室】SPEGC:基于语义提示增强图聚类的医学图像分割持续测试时自适应

在五轮长期持续适配测试中,SPEGC实现了83.10%的平均DSC,为所有方法最优,同时仅出现1.27%的性能衰减,有效缓解了错误累积和灾难性遗忘,远优于梯度对齐、熵最小化等方法。,前者提取跨医院、跨设备的通用语义知识,后者捕捉特定数据的专属特征,通过注意力和反向注意力机制,将两类全局信息注入局部特征,有效缓解域偏移下的噪声干扰,让特征更稳定、更具代表性。:消融实验证明,移除语义提示或图聚类模块后,模型性能会显著下降,而通用+专属的解耦提示池、低不确定性特征采样,是提升模型性能的关键。

2026-03-21 00:18:56 386

原创 【CVPR26-苏卓-中山大学】双层级图层定位LoRA用于真实图像去雾

该研究提出的H2C文本引导损失与BiLaLoRA双层定位LoRA组合方案,彻底解决了真实图像去雾的无监督训练和高成本微调问题,以极低的计算开销实现了超越SOTA的去雾效果,且兼具通用性和部署友好性,为真实场景的图像去雾落地提供了全新的高效解决方案,也为低层次计算机视觉任务的域自适应研究提供了新思路。训练的,虽然在合成数据集上表现亮眼,但面对复杂的真实雾景时,效果会大幅下降,存在明显的“合成-真实”域间隙问题。仅需修改文本提示(如“夜晚有雾的照片”),就能适配白天、夜晚等不同雾景,泛化性拉满。

2026-03-20 00:03:00 211

原创 【CVPR26-四川大学-王韬】 |FOZO:一种高效的仅前向传播的测试时自适应新范式

FOZO通过高效的零阶优化来更新视觉提示(Prompt),在不修改模型任何权重的情况下,使预训练模型能够快速适应现实世界中不断变化的数据分布,尤其适用于计算和内存资源受限的边缘设备场景。:如图3所示,在模拟真实世界不可预测、多种分布偏移交替出现的“混合偏移(Mixed Shifts)”场景下,FOZO 依然展现出极强的适应性和稳定性,持续优于现有方法,证明了其在高度动态环境中的应用潜力。简单来说,FOZO 的优化速度不再受限于庞大的模型参数量,而是取决于问题的核心特征维度,这突破了传统高维优化的速度瓶颈。

2026-03-19 00:10:34 278

原创 【CVPR26-胡志明市开放大学】用于轻量级超分辨率中扩展感受野的统一卷积注意力网络

UCAN通过融合刺猬注意力、半共享机制、大核蒸馏和Flash Attention的创新设计,在轻量超分模型中实现了有效感受野的高效扩展,既解决了传统模型“看不远、算得慢”的痛点,又保留了丰富的图像特征和高重建精度,为端侧设备的图像超分辨率落地提供了高性能、高性价比的全新方案。将特征通道分为精细子集和粗集,仅在占比25%的精细子集上进行大核、膨胀卷积的复杂计算,粗集则做轻量处理,通过知识蒸馏的思路,让模型在极低的参数开销下,实现大核卷积的效果,有效保留图像的高频结构(如文字边缘、建筑纹理)。

2026-03-18 00:14:07 248

原创 【CVPR26-Min Tan-杭电】基于多线索学习的伪标签进化融合与优化:用于无监督伪装检测

杭州电子科技大学与浙江大学团队提出的EReCu框架,通过多线索原生感知、伪标签进化融合和局部精修三大模块的协同作用,实现了无监督伪装目标检测中语义可靠性与纹理保真度的共同进化,在多个基准数据集上达到SOTA性能,有效提升了复杂场景下伪装目标的边界检测精度和细节感知能力,为无监督伪装目标检测的研究提供了新的思路和基准。:移除任一核心模块均会导致性能明显下降,MNP与EPL的组合带来最显著的性能提升,证明各模块的互补性和整体框架的合理性,所有模块的协同集成是实现高性能的关键。

2026-03-17 00:06:30 199

原创 【CVPR26-加拿大康考迪亚大学】MedCLIPSeg:用于数据高效且具有泛化性的医学影像分割的概率视觉-语言适配

与此同时,虽然CLIP这类视觉语言模型拥有强大的跨模态表征能力,能实现图像和文字的语义对齐,且文本描述比像素级标注更容易获取,本应成为解决医学影像分割痛点的突破口,但目前其在密集的、文本引导的医学影像分割中的潜力,还远未被充分挖掘。:针对医学影像的特点,提出软补丁级对比损失,将影像块嵌入聚合成稳定的区域表征,结合文本嵌入做精细对齐,即便在标注数据有限的情况下,也能让模型学好语义关联,大幅降低对像素级标注的依赖;

2026-03-16 00:05:34 402 1

原创 【CVPR26-陈阳-东南大学】看、说、排序:用于视觉语言大模型中基于视觉的多模态推理的一种无迭代训练框架

东南大学与牛津大学联合提出的ECRD无训练框架,通过动态视觉证据池+分布监督器+视觉决策器的组合设计,实现了对视觉语言模型推理过程的逐步骤视觉监督,在无需额外训练、低成本的前提下,大幅抑制了视觉幻觉传播,显著提升了多模型、多数据集的看图推理准确性,为轻量化优化视觉语言模型推理性能提供了全新思路。:当模型对候选答案的置信度不足时,会触发这一模块,它会根据当前推理上下文,从图片中提取精准的视觉细节并转化为文字证据,补充到证据池中,同时帮模型确定当前步骤的正确答案,避免幻觉产生。

2026-03-15 00:11:54 211

原创 【CVPR26-黄怀波-中科院】随机完胜:重新思考视觉令牌的分组策略

中科院团队提出的随机分组策略,以极致简洁的设计颠覆了视觉Transformer的传统令牌分组思路,证明只要满足位置信息、头特征多样性、全局感受野、固定分组模式四大核心条件,简单的随机分组即可在各类视觉及跨模态任务中实现性能与效率的双重超越,为ViT的轻量化设计与工程落地提供了更高效、更通用的新方案。所有注意力头共用一个随机张量,准确率下降1.5%-2.3%;,摒弃了所有复杂的空间、语义、层级化分组逻辑,仅通过三步完成令牌分组,且能无缝适配各类ViT基线模型,还可拓展至3D点云、视觉语言跨模态任务。

2026-03-14 00:25:30 423

原创 【CVPR26-四川大学数据智能与计算艺术实验室团队】

Dr. Seg通过Look-to-Confirm机制拓宽VLLMs感知任务的输出空间,结合Distribution-Ranked Reward模块提供细粒度稳定奖励,在不修改模型架构的前提下,让GRPO完美适配视觉感知任务,实现了多种感知任务分布内/外性能的双SOTA,为VLLMs的感知导向训练提供了高效的优化范式。该模块让每个奖励分量的梯度权重与原始数值解耦,以其在近期性能分布中的相对位置为依据,提供细粒度、自适应的稳定奖励反馈,有效提升模型在分布内(ID)任务中的数据拟合能力。

2026-03-13 00:14:48 219

原创 【CVPR26-孙栩-北京大学】Conan:像侦探一样对多尺度视觉证据进行渐进式学习推理

通过证据难度指数(EDI)量化推理复杂度(由证据帧占比+时间分散度计算,EDI越高推理越难),将数据集分为60K的SFT样本(Conan-CoT-60k,低EDI、最多3轮推理)和31K的RL样本(Conan-RLVR-31k,高EDI、无推理轮数限制),实现从简单到复杂的渐进式训练。此外,定性分析显示,Conan能精准定位视觉证据、构建有依据的推理链,相比纯文本推理模型(易幻觉)、普通视频CoT模型(证据定位不准),推理过程更贴合视频实际内容。

2026-03-12 00:18:55 237

原创 【CVPR26-北京大学】Conan:像侦探一样对多尺度视觉证据进行渐进式学习推理

通过证据难度指数(EDI)量化推理复杂度(由证据帧占比+时间分散度计算,EDI越高推理越难),将数据集分为60K的SFT样本(Conan-CoT-60k,低EDI、最多3轮推理)和31K的RL样本(Conan-RLVR-31k,高EDI、无推理轮数限制),实现从简单到复杂的渐进式训练。此外,定性分析显示,Conan能精准定位视觉证据、构建有依据的推理链,相比纯文本推理模型(易幻觉)、普通视频CoT模型(证据定位不准),推理过程更贴合视频实际内容。

2026-03-12 00:18:55 360

原创 【CVPR26-美国伊利诺伊大学】视觉-语言模型中的链路追踪:理解多模态思维的内部机制

该研究首次构建了视觉语言模型的电路追踪框架,通过转码器、归因图和注意力分析实现了对多模态推理内部因果电路的系统解析,揭示了VLMs层级整合、并行通路等核心推理机制,且通过干预实验验证了电路的可控性,为可解释、可控制的多模态AI发展奠定了重要基础,同时也指出了转码器设计、自动化解析、多模型适配等未来亟待解决的问题。:以“六指识别为五指”为例,模型幻觉由视觉编码器的感知偏差+内部电路动态共同导致,手部视觉特征被放大并激活数字5的电路,压制了计数特征,即便模型具备视觉计数能力,也会被主导性的语义/感知信号掩盖;

2026-03-11 08:21:55 236

原创 【CVPR26-伊利诺伊大学芝加哥分校】VGent:通过模块化设计实现推理与预测分离的视觉定位

VGent通过解耦推理与预测的模块化设计,充分融合了多模态大模型的强推理能力和目标检测器的高精度定位优势,辅以三大模块增强策略,实现了视觉定位任务在单/多目标场景下的性能突破,同时保持稳定的快速推理,为后续视觉定位的研究提供了模块化的全新思路。:基于强化学习的训练范式,引导编码器进行“区域到全局”的分步推理,先统计图片四个象限的目标数量,再汇总全局数量,大幅提升编码器的多目标推理能力,减少幻觉;:既实现了单/多目标视觉定位的SOTA性能,又保持稳定的快速推理,突破了现有模型“速度与准确率不可兼得”的困境;

2026-03-10 00:44:21 200

原创 【CVPR26-张小云-上海交通大学】ODTSR:用于可控真实世界图像超分辨率的一步扩散Transformer

ODTSR通过噪声混合视觉流和保真感知对抗训练的创新设计,打造了首款支持中英双语指令的一步扩散Transformer超分模型,一举解决了现实图像超分中保真与可控的核心矛盾,实现了速度、质量、灵活性的三重突破,为现实场景的图像超分落地提供了全新的高效方案。在文字可控超分任务中,ODTSR在CLIP-T(指令贴合度)上远超同类模型,在RealCE-Val的中文文字修复中,无指令时NED(文字相似度)已领先,加入文字指令后更是大幅提升,远超专门训练的模型。中间值可线性调节,实现“保真-可控”的平滑切换。

2026-03-09 00:03:44 264

原创 【CVPR26-杨思蓓-中山大学】视觉Transformer需要的不只是寄存器

该研究揭示了ViT因粗粒度语义监督和全局注意力导致的惰性聚合是其特征伪影的核心成因,提出的LaSt-ViT通过频率感知的选择性聚合让CLS令牌精准锚定前景区域,从根源上消除了各类伪影,让ViT在12个密集预测基准数据集上实现一致性提效,为ViT的特征优化提供了全新视角,也让ViT在密集预测任务中的应用更具潜力。此外,消融实验证明,LaSt-ViT的性能提升并非池化操作的副作用,而是真正实现了更有效的语义聚合,且当选择一半令牌进行聚合时,模型性能达到峰值。研究团队通过系统性分析,提出了。

2026-03-08 00:17:28 218

原创 【CVPR26-洪少华-厦门大学】相似度即证据:为可解释且标注高效的医学主动学习校准过度自信的视觉语言模型

SaE框架通过将视觉语言模型的图文相似度转化为可量化的狄利克雷证据,拆解并利用不确定性实现分阶段的可解释样本选择,在仅20%标注预算下实现了多器官医学影像主动学习的SOTA效果,既解决了冷启动和模型过度自信问题,又大幅提升了标注效率,为医学影像AI的临床落地提供了高效、可靠的新方案。SaE从医学权威数据库PubMed中,检索各病症的专业影像学描述(如“胶质瘤在MRI中呈不规则肿块,伴环形强化”),为每个病症生成专业提示词,让AI能精准识别医学影像的核心特征,从源头减少判断偏差。

2026-03-07 00:13:20 237

原创 【CVPR26-占鸿渐-华东师范大学】DeepScan:大型视觉-语言模型中无需训练的视觉接地推理框架

DeepScan以人类自下而上的视觉推理逻辑为灵感,打造了无训练、即插即用的大视觉语言模型视觉基础推理框架,通过分层扫描、重新聚焦与证据增强推理的协同,彻底解决了传统粗到精定位范式的抗干扰性差问题,大幅提升了LVLMs在细粒度视觉理解任务中的表现,为大模型的视觉推理优化提供了全新范式,同时也为GUI智能体、自动驾驶、实体操作等实际场景的落地奠定了技术基础。,整合分层扫描的细粒度证据和重新聚焦的粗粒度视图,以多图像提示形式提供给LVLMs,让模型既能解析物体属性,又能推理空间关系,生成准确且可解释的答案。

2026-03-06 00:08:56 186

原创 【CVPR26-何泽威-浙江大学】GFRRN:弥合语义与数据差距,实现通用玻璃反光去除

本文提出的GFRRN模型,通过轻量语义适配、统一数据标注、频率感知处理和动态注意力机制,成功弥补了传统玻璃反光去除方法的语义与数据两大核心间隙,在多个基准数据集上实现了SOTA的去除效果,为单张图像玻璃反光去除技术的实用化落地提供了重要的技术支撑。:模型训练需同时使用“合成数据”(有清晰的反光和目标场景标注)和“真实数据”(无精准标注,只能用“照片减目标场景”粗略得到反光),两类数据的标注标准不一致,让模型训练时容易“混淆”,既可能残留反光,也可能误删目标场景的细节。

2026-03-05 00:42:29 218

opencv4.4.0+vs2019+已经编译好

opencv4.4.0+vs2019+已经编译好

2021-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除