自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gorgeous_wxd

疏影横斜水清浅,暗香浮动月黄昏。

  • 博客(427)
  • 资源 (1)
  • 收藏
  • 关注

原创 深度学习框架解读

深度学习框架解读知识点汇总

2023-04-21 15:20:22 792 1

原创 【论文汇总】2D目标检测文章汇总,持续更新

记录自己比较感兴趣的2D目标检测文章。

2022-07-21 16:15:12 2285

原创 【汇总】百宝囊

记录一下看过的一些讲解比较清楚的知识点

2022-07-18 18:57:44 336

原创 【汇总】看过的一些Panel与视频

学术talk

2022-07-04 09:54:50 728

原创 【目标检测】小目标检测相关

小目标检测相关文章和竞赛汇总

2021-07-05 22:36:27 1976 7

原创 【CVPR26-王琦-西北工业大学】基于锚定描述的判别式感知推理分割方法

解决推理分割“推理发散、冗长、不可解释”的痛点,在保持高精度的同时将推理长度降低42%,为高效、聚焦、可解释的视觉推理分割提供全新范式。计算:ROI得分S₁=相似度(V_C,V_ROI),AOI得分S₂=相似度(V_C,V_AOI)原因:与格式、几何奖励的“0/1离散信号”完全兼容,训练更稳定,避免数值噪声干扰收敛。提取:描述文本特征V_C、目标区域(ROI)特征V_ROI、全图(AOI)特征V_AOI。:仅依赖IoU、L1等几何指标,只关心“最终定位准不准”,不关心“推理过程对不对”。

2026-04-20 02:13:40 145

原创 【CVPR26-斯洛文尼亚卢布尔雅那大学】打造更强特征:面向多光谱对地观测的双教师蒸馏方法

通用视觉大模型(如DINOv3)语义强,却没法直接用在多光谱上,强行融合会掉点。卫星数据分辨率、光谱、拍摄条件差异巨大,单模型根本扛不住,只能走“多模型协同+知识迁移”路线。的遥感基础模型,在分割/变化检测/分类全面登顶SOTA,是未来多模态遥感大模型的标杆路线。想让模型既看得懂RGB,又吃得下多光谱,还得语义强、成本低,以前没有好办法。,让多光谱模型完美继承光学大模型的语义能力,同时保留自身光谱优势,实现。用两个“老师”,用同一种对比学习范式,一起训练一个“全能学生”。

2026-04-19 10:05:37 319

原创 【CVPR26-纽约大学】PaQ-DETR:面向目标检测的模式与质量感知动态查询学习方法

DETR采用匈牙利一对一匹配,只有极少数查询能获得有效梯度更新,绝大多数查询处于“闲置”状态,基尼系数最高可达0.97,模型容量被严重浪费。,一举解决DETR查询失衡、监督稀疏的核心痛点,以极小计算开销实现1.5%~4.2%的稳定涨点,是即插即用、泛化性极强的DETR升级框架。一对一匹配仅为每个真实物体分配一个查询,监督信号不足,即便后续一对多方法,也采用固定正样本数,无法自适应筛选高质量监督样本。,而非固定k个:优先选高质量样本,同时保证最少1个正样本,避免低质量样本干扰训练。

2026-04-18 09:33:02 333

原创 【CVPR26-俞思悦-西交利物浦大学】TALENT:面向指代表达图像分割的目标感知高效微调方法

文章:TALENT: Target-aware Efficient Tuning for Referring Image Segmentation代码:https://github.com/Kimsure/TALENT单位:西交利物浦大学、利物浦大学、中国石油大学(华东)、北京科技大学、北京交通大学RIS需要建立文本描述 ↔ 视觉区域的一对一精确匹配,对类别、属性、空间关系的细粒度对齐要求极高,是视觉-语言理解中极具挑战的任务。全参数微调(PFT):效果好但计算开销巨大,模型扩展能力差。参数高效微调(PET

2026-04-17 08:16:31 332

原创 【CVPR26-陶大程-南洋理工】启发式推理先验助力数据高效型指代目标检测

不再让模型从稀缺数据中隐式学习基础推理规则,而是直接注入显式、可解释的启发式推理先验,引导模型快速收敛、提升数据效率。:显式建模“left/right/top/bottom/top-left”等方位约束,直接缩小目标搜索范围。,从候选筛选、预测输出到训练损失全链路引导,这是区别于所有后处理/简单融合方法的本质创新。将显式空间与语义启发式先验,深度注入DETR候选筛选、预测融合、训练匹配三大核心阶段。(一)核心先验设计:空间先验 + 视觉语义先验(论文中没有提供流程图,只有公式)

2026-04-16 06:09:45 391

原创 【CVPR26-程明明-南开大学】GeoAgent:基于强化地理特征的全域图像地理定位方法

让视觉大模型真正像人类专家一样看图推理全球位置,在精度、可解释性、泛化性上全面突破,是图像地理定位领域的里程碑式工作。GeoSeek-Val:城市级精度15.69%,地区级33.39%,国家级60.37%,GeoScore高达。:计算预测坐标与真实坐标的球面距离,距离越近奖励越高,非线性递增,符合人类“先粗后精”定位习惯。:依赖AI自动生成的思维链(CoT),而非人类真实地理推理逻辑,容易出现“瞎推理、逻辑断裂”。:对国家、地区、精确位置三级地址做语义编码,别名、简称、翻译差异都能正确打分。

2026-04-15 00:18:00 418

原创 【CVPR26-马连博-东北大学】面向增量式统一多模态异常检测:基于信息瓶颈视角增强多模态去噪

IB‑IUMAD从信息瓶颈视角构建多模态降噪框架,用Mamba解耦虚假特征、信息瓶颈过滤冗余信息,实现工业质检场景下“单模型、多品类、增量学习、不遗忘”的高效异常检测,精度与效率双优。在6‑1(4步)设置下,IB‑IUMAD在MVTec 3D‑AD上: I‑AUROC/AUPRO提升**3.5%/2.9%(合成)两大数据集上完成,设置4种增量学习场景:10‑0、9‑1、6‑4、6‑1,对比IUF、CDAD等SOTA方法。任务,目标是打造一个“单模型、多品类、可持续增量学习、不遗忘”的工业质检框架。

2026-04-14 00:04:08 300

原创 【CVPR26-曲延云-厦门大学】无需对数几率优化的直接分割——面向免训练开放词汇语义分割

DSLO打破开放词汇语义分割“先优化logits再分割”的固有范式,直接用分布差异解析解实现免训练、无标注、强泛化的分割,在精度、效率、通用性上全面突破,为开放词汇分割提供了全新极简思路。:先计算视觉-语言特征余弦相似度得到logits,再迭代优化logits与真实标签分布差异,依赖标注、训练耗时。,流程冗余且效率低。:基于Sinkhorn定理,求解logits到退化分布的最优传输矩阵,用传输路径量化分布差异。:相比CASS等方法,推理速度更快,计算开销更低,核心分布差异计算仅需约0.1秒。

2026-04-13 00:03:36 242

原创 【CVPR26-韩国科学技术院】令牌扭曲技术助力多模态大语言模型从邻近视角观察场景

即便融入3D感知特征、显式3D监督,模型也难以完成可靠的视角转换推理,无法像人类一样从邻近新视角理解场景结构。反向令牌扭曲以图像令牌为单元替代像素扭曲,让多模态大模型无需生成新图像,就能轻量、鲁棒地完成邻近视角的场景推理,全面优于传统方法。:在目标视角构建密集规则网格,反向映射至源图检索令牌,避免正向扭曲的稀疏空洞问题;:用ViT架构的图像令牌替代像素,令牌兼具细节与鲁棒性,可抵抗几何噪声;:推理阶段直接使用,无需微调模型,不破坏原有能力。轻量高效:推理开销极小,即插即用,无需额外训练;

2026-04-12 00:04:50 251

原创 【CVPR26-韩国高丽大学】基于能量分离的开放世界目标检测未知目标方法

总损失 = 分类损失 + 框回归损失 + EUS损失 + EKD损失(仅回放阶段用)模式,只认识训练过的类别,遇到没见过的物体要么乱分类、要么直接忽略。同时计算两个空间的能量分数,让已知、未知、背景各归其位。训练时强制拉开已知/未知的能量间隔,推理时校准未知分数。计算开销极小:推理仅+1.9%,FLOPs仅+0.5%用能量约束:旧样本只信旧分类器,新样本只信新分类器。基线把长颈鹿(未知)误判成马,把牛(已知)判成未知。DEUS精准框出所有未知,正确识别已知,不漏检。的SOTA效果,轻量好用、落地潜力拉满!

2026-04-11 00:13:36 297

原创 【CVPR26-韩国-LG Energy Solution】UniSpector:基于频谱对比视觉提示的通用开放集缺陷识别方法

破解工业开放集缺陷识别的特征崩溃难题,搭配首个专用基准InsA,实现无需重训、看样识瑕的高效工业质检,是下一代柔性视觉检测的优质方案。结合空间特征与频谱特征,提取旋转不变的细粒度纹理信息,降低同类缺陷的形态差异,放大不同缺陷的特征区别。:用样图做提示的方法,面对同一种缺陷形态差异大、不同缺陷长得像的情况,特征会混乱,识别准确率暴跌。用角间隔对比学习,强制同类缺陷特征抱团、异类缺陷特征远离,构建语义清晰的特征空间,避免特征崩溃。:无需重新训练,给样图就能识别新缺陷,适配不断变化的工业产线。

2026-04-10 00:21:26 312

原创 【CVPR26-克罗地亚萨格勒布大学】SPAR:面向开放词汇分割的任意分辨率视觉Transformer

训练时只微调最后两层,喂各种分辨率图片,让学生学会“一眼看懂任意尺寸大图”,推理时保持单次超快速度,还能输出滑窗级别的精细特征。:训练时只认固定分辨率,一遇到高清、任意尺寸的图片,做开放词汇分割(OVS)就精度暴跌。:把大图切成小图慢慢算,精度高,但计算量爆炸、速度极慢,根本没法落地。SPAR用极简师生蒸馏,让ViT不用改结构、不用标注,就能。,高清输入必不可少,ViT的分辨率挑食问题成了最大瓶颈。,速度快52倍还更准,直接解决开放词汇分割的分辨率痛点。:速度快,但直接插值位置编码,细节全丢,分割很粗糙;

2026-04-09 00:04:02 165

原创 【CVPR26-杜克大学】超越真值约束:利用图像质量先验实现真实场景图像修复

把无参考画质评价(NR-IQA)的分数当作条件输入,让AI直接朝着“满分画质”去修,即插即用,不改动原有模型结构。让AI直接学会“审美修图”,在真实场景图像修复中实现更清晰、更自然、更贴合人眼观感的效果,还能轻松赋能现有模型。同时,把IQPIR集成到其他主流修复模型(WaveFace、Interlcm、Reti-Diff等),都能带来。:在LFW、WebPhoto、WIDER数据集上,各项画质指标全部第一,用户打分最高。现在的真实场景图像修复(模糊人脸、暗光、水下、背光图修复),几乎都依赖。

2026-04-08 00:27:52 248

原创 【CVPR26-都灵理工大学】INSID3:基于DINOv3的免训练上下文分割方法

在COCO、LVIS、ISIC皮肤病灶、X光胸片、iSAID航拍、SUIM水下等数据集全面领先,胸片领域暴涨**27.8%**。(DINOv2+SAM):不用训练、泛化好,但要两个大模型联动,参数多、推理慢、分割粒度死板,还没法完全发挥特征的潜力。:在特定数据集上训练,本领域很准,但换到医疗、航拍、水下等陌生领域直接拉胯,泛化能力极差。不用调参,直接兼容5张示例,平均再涨**+1.3%~9.5%**,继续保持第一。,超GF-SAM **12.9%**,能精准区分相似干扰实例。

2026-04-07 00:32:00 294

原创 【CVPR26-卢湖川-大连理工】UniMMAD:基于混合专家驱动的特征解压缩实现统一多模态多类别异常检测

的创新范式,打造出首个高效统一的多模态多类别异常检测框架,精度、效率、通用性拉满,是工业质检与医疗影像异常检测的新一代标杆方案。工业检测:MVTec-3D、MVTec-AD、VisA等数据集,图像/像素级指标全面超越专用模型;先把任意多模态输入压缩成通用特征,再解压为对应模态、类别的专属特征,避免模型偷懒式捷径学习。加入特征压缩模块,过滤异常信号、提纯正常特征,兼容任意模态组合输入。多类别方法共用解码路径,不同领域数据互相干扰,误报率高、部署麻烦;模型碎片化严重,内存开销大,还没法轻松适配新类别、新模态。

2026-04-06 09:06:26 279

原创 【CVPR26-韩国高丽大学】聚焦,而非删减:识别信息密集型图像理解中与指令相关的区域

PinPoint通过区域选择与细化的两阶段框架,以“精准聚焦指令相关区域”替代传统的令牌盲目修剪,结合配套的丰富标注数据集和轻量级对比损失训练,让大视觉语言模型在处理信息密集型图像时,既大幅降低了计算开销,又显著提升了推理精度和抗幻觉能力,为LVLMs的高效推理提供了全新的可行方案。:先通过滑动窗口从整幅图像中提取区域级视觉特征,再利用可学习的引导查询构建视觉-文本共同特征空间,通过模态间的特征对齐,用余弦相似度排序并自适应选择占图像总面积一定比例的指令相关区域,摒弃了传统的令牌级筛选思路;

2026-04-05 00:09:40 354

原创 【CVPR26-丹麦技术大学】迈向高质量图像分割:通过惩罚相邻像素提高拓扑精度

SCNP以3行代码的极简实现、计算高效的特性,实现了图像分割拓扑精度的显著提升,适配管状、圆形等多形态结构和主流损失函数/框架,是医疗影像、卫星遥感等拓扑敏感型分割任务的实用优化方案,仅对极小低对比度非管状结构的效果有限。,避开了现有拓扑优化方法“重计算、强限制、难集成”的痛点,为工业界和学术界提供了一种轻量化的图像分割拓扑优化思路,其代码已开源,可直接集成到实际项目中,值得相关领域的开发者尝试!此外,对比二值闭运算等后处理方法,SCNP的拓扑优化效果更优,且无需依赖真值调参,适配性更强。

2026-04-04 11:28:32 568

原创 【arXiv26-Intellindust AI Lab】EdgeCrafter:面向密集预测中轻量级视觉Transformer的任务特定蒸馏与边缘友好设计

另一方面,现有轻量级ViT的设计多为通用型,未针对密集预测的逐像素分析特性做优化,且传统的模型蒸馏技术缺乏任务针对性,大模型的“能力”无法有效传递给小模型,导致轻量级ViT在图像分割、目标检测等密集预测任务中精度表现不佳,难以满足实际应用需求。:区别于传统泛化的模型蒸馏,该技术专为视觉密集预测任务定制,让训练成熟的大尺寸高精度ViT模型,把针对逐像素分析、目标特征提取、区域分割的“专属本领”精准传递给轻量级ViT,而非简单传递通用视觉特征,让小模型能学到密集预测任务的核心能力,大幅提升精度。

2026-04-03 00:09:09 229

原创 【CVPR26-韩国成均馆大学】超越窗口:用于无训练开放词汇语义分割的全局-局部对齐CLIP

成均馆大学提出的GLA-CLIP框架,通过键值扩展、代理锚点、动态归一化三大创新模块,首次彻底解决了无训练开放词汇语义分割中滑动窗口的语义不一致问题,无需额外训练和数据集专属超参数,即可实现跨骨干、跨域、跨模型的高效适配,在提升分割性能的同时兼顾计算效率,为无训练OVSS的实际应用提供了新的高效解决方案。在Cityscapes、ADE20K等数据集上,分割掩码更干净,目标边界更清晰,无错分、漏分问题,如能准确区分道路和人行道,解决ProxyCLIP的错分难题。,替代原窗口内的局部查询。

2026-04-02 00:04:29 295

原创 【CVPR26-邹逸雄-华科】修复目标域像散以实现跨域少样本目标检测

华中科技大学团队首次发现跨域少样本目标检测的目标域散光问题,受人类中央-外周视觉系统启发提出的注意力精修框架,通过前景原型增强、背景原型调制和跨模态语义对齐的协同作用,有效将模型在目标域的分散注意力转化为聚焦模式,在六大基准数据集上刷新SOTA,为跨域少样本检测的注意力优化提供了可借鉴的生物启发式解决方案。(从支持集真实框外的背景区域提取),对背景特征进行调制增强,明确区分目标与背景的边界,减少前景-背景的特征混淆,降低模型对背景的无效注意力;

2026-04-01 00:08:12 184

原创 【CVPR26-高君宇-西北工业大学】QICA:增强零样本目标计数的数量感知与空间感知能力

将离散数量值转化为连续嵌入表示,训练时动态生成包含真实数量和反事实数量的文本提示,通过耦合函数实现视觉-语言提示的双向梯度流动,让模型学习细粒度数量区分能力;QICA框架通过数量感知的协同提示、基于相似度图的成本聚合解码和全流程的多级数量对齐损失,首次实现了零样本目标计数中数量感知与空间感知的双重提升,在通用、跨域、高密度场景下均取得优异性能,同时兼顾了模型效率,为零样本目标计数的实际应用奠定了基础,也为视觉-语言模型在计数类任务中的适配提供了新思路。

2026-03-31 00:25:57 166

原创 【CVPR26-索尼】EW-DETR:通过增量低秩检测Transformer实现动态世界目标检测

索尼印度研究院联合印度国际信息技术研究所提出的EW-DETR框架,首创了演化世界目标检测(EWOD)范式,通过增量LoRA适配器、查询归一化目标适配器和熵感知未知混合器三大核心模块,实现了无样本约束下的增量类别学习、跨域场景适配和精准未知检测,同时提出FOGS综合评价指标,大幅超越现有方法,为目标检测模型在动态真实世界的落地应用提供了全新的解决方案和研究方向。同时通过可学习的融合权重,结合分类器输出的未知概率和目标性推导的未知概率,生成最终的未知分数,还会对已知类分数做软抑制,进一步提升未知检测的准确性。

2026-03-30 00:16:13 533

原创 【CVPR26-王磊-空天院】GeoViS:面向遥感视觉定位的地理空间奖励视觉搜索

中科院等多校联合提出的GeoViS框架,通过地理空间奖励引导的树形层级视觉搜索与条件化视觉定位的创新结合,以及统一的VisualRAG模型设计,有效解决了遥感影像视觉定位中复杂空间关系推理和小目标低有效分辨率的核心难题,在五大基准数据集上实现SOTA性能,为遥感多模态大模型的视觉定位提供了通用、可迁移的新范式。:相比单步推理的基线模型,GeoViS能有效处理长文本、复杂空间关系的查询,精准定位千米级影像中的小目标,解决了基线模型易误定位、无法理解空间关系的问题。

2026-03-29 00:18:51 206

原创 【CVPR26-莫纳什大学】在不确定性中思考:利用潜在熵感知解码减轻多模态大推理模型的幻觉问题

研究团队从token级不确定性出发,揭示了过渡词、高熵状态与多模态模型幻觉的内在关联,并提出轻量级即插即用的LEAD解码策略,通过熵感知的动态推理模式切换和视觉锚点注入,在多款多模态大推理模型的通用及专业基准数据集上,实现了幻觉的显著缓解和推理性能的全面提升,且兼顾了推理效率和生成文本质量,为多模态推理模型的幻觉缓解提供了高效、易部署的新方案。:在部分超复杂的视觉推理任务中,模型进入高熵状态的次数更多,推理模式切换更为频繁,虽能缓解幻觉,但推理效率的提升幅度有所下降;

2026-03-28 00:08:14 216

原创 【CVPR26-英国边山大学】仅用于训练的异质图像-补丁-文本图监督:助力少样本学习适配器的发展

在所有数据集和所有shot设置下,TOGA均大幅超越现有主流方法(包括Tip-Adapter、GraphAdapter、CLIP-Adapter等适配器方法,以及CoOp、MaPLe等提示学习方法),16-shot平均准确率达82.3%,远超GraphAdapter的76.2%、Tip-Adapter-F的75.7%。的双目标策略:一方面用交叉熵损失让学生模型学习教师模型的知识,另一方面用焦点损失对教师模型做正则化,让教师模型专注于难样本和细粒度样本的学习,避免“躺平”在简单样本上,保证监督信号的质量。

2026-03-27 00:58:36 223

原创 【CVPR26-单彩峰-南京大学】O2MAG:用于异常检测的单样本高保真异常图像生成

O2MAG提出了一种免训练、单步的高保真异常图像生成方法,解决了传统异常图像生成耗时、失真、泛化性差的问题,能直接提升下游异常检测模型的性能,为计算机视觉异常检测领域的样本制作提供了全新且高效的解决方案,虽在极端异常、低质输入、视频场景上仍有局限,但整体极具实际应用价值。:不同于以往生成的“假异常”,O2MAG能精准捕捉真实异常的视觉特征,生成的异常图像在纹理、细节、色彩上都和真实场景高度契合,异常区域的位置、形态也更符合实际情况,不会出现失真、违和的问题。的异常图像生成方法,解决样本制作的难题。

2026-03-26 00:15:09 353

原创 【CVPR26-郭峰-山东大学】MixerCSeg:一种通过解耦曼巴注意力实现裂缝分割的高效混合器架构

以DeepCrack数据集为例,mIoU达0.9151、F1达0.9205,较次优模型SCSegamba分别提升1.43%、1.04%,较混合架构模型MambaVision提升1.78%、4.61%,在高背景噪声、大宽度裂缝的Crack500数据集上,F1也达到0.7755的最优值。,训练内存占用仅1190 MiB。:首次基于Mamba隐式注意力解耦令牌,让CNN、Transformer、Mamba形成协同架构,而非简单堆叠,充分发挥各架构在局部、全局、序列上下文特征捕捉的优势;

2026-03-25 00:04:19 184

原创 【CVPR26-吴高昌-东北大学】RAID:检索增强的异常检测

RAID首次将RAG范式深度融入无监督异常检测,通过分层向量数据库实现粗到精的高效精准检索,结合引导式MoE滤波网络完成噪声抑制和像素级精细异常生成,一举解决传统方法匹配噪声、小样本泛化差、跨场景适配难的核心问题,在四大工业基准数据集的全shot、小样本、跨数据集场景中全面刷新SOTA,为无监督异常检测的工业落地提供了更高效、更通用的全新方案。RAID框架便由此诞生。随样本数增加,性能持续提升,4-shot时I-AUROC达96.9%,且全程保持像素级定位的高精度,解决了传统方法小样本泛化差的痛点。

2026-03-24 00:01:52 249

原创 【CVPR26-程塨-西北工业大学】YOLO真的需要在每个训练轮次都查看所有训练图像吗?

这种“推理快、训练慢”的矛盾,本质是因为YOLO默认所有图片在训练全程的重要性都一样,忽略了模型的学习规律——随着训练推进,有些图片会从“难学”变“易学”,反复训练这些已掌握的图片,只会白白消耗计算资源,拖慢整体训练进度。:提速的同时,模型的检测精度没有任何损失,反而有小幅提升。,能实现“只看一次”就完成目标检测,但它的训练过程却和“高效”完全不沾边:传统YOLO训练时,每一个训练轮次(epoch)都要把所有训练图片过一遍,哪怕很多图片模型早就学透了,还是要反复计算,造成大量的冗余操作。

2026-03-23 00:07:00 507

原创 【arXiv26-王海鹏-复旦大学】CrossEarth-SAR:一种以合成孔径雷达为中心的十亿级地理空间基础模型,用于领域泛化语义分割

CrossEarth-SAR作为首个十亿级SAR中心的地理空间基础模型,通过物理引导的稀疏MoE架构、大规模混合标签数据集和首个统一跨域基准,大幅突破了SAR语义分割的跨域泛化瓶颈,为SAR的规模化、工程化应用奠定了核心基础,也为遥感领域专用大模型的研发提供了全新范式。:在换区域、换极化、换复数值等8类单一跨域任务中,CrossEarth-SAR全系列版本均大幅超越现有主流模型,其中大版本(L)在极化跨域任务中,准确率较基线模型DINOv2提升8.1%~15.5%,复数值跨域任务提升4.8%~5.1%;

2026-03-22 01:43:03 216

原创 【CVPR26-雷涛-陕西科技大学陕西省人工智能联合实验室】SPEGC:基于语义提示增强图聚类的医学图像分割持续测试时自适应

在五轮长期持续适配测试中,SPEGC实现了83.10%的平均DSC,为所有方法最优,同时仅出现1.27%的性能衰减,有效缓解了错误累积和灾难性遗忘,远优于梯度对齐、熵最小化等方法。,前者提取跨医院、跨设备的通用语义知识,后者捕捉特定数据的专属特征,通过注意力和反向注意力机制,将两类全局信息注入局部特征,有效缓解域偏移下的噪声干扰,让特征更稳定、更具代表性。:消融实验证明,移除语义提示或图聚类模块后,模型性能会显著下降,而通用+专属的解耦提示池、低不确定性特征采样,是提升模型性能的关键。

2026-03-21 00:18:56 404

原创 【CVPR26-苏卓-中山大学】双层级图层定位LoRA用于真实图像去雾

该研究提出的H2C文本引导损失与BiLaLoRA双层定位LoRA组合方案,彻底解决了真实图像去雾的无监督训练和高成本微调问题,以极低的计算开销实现了超越SOTA的去雾效果,且兼具通用性和部署友好性,为真实场景的图像去雾落地提供了全新的高效解决方案,也为低层次计算机视觉任务的域自适应研究提供了新思路。训练的,虽然在合成数据集上表现亮眼,但面对复杂的真实雾景时,效果会大幅下降,存在明显的“合成-真实”域间隙问题。仅需修改文本提示(如“夜晚有雾的照片”),就能适配白天、夜晚等不同雾景,泛化性拉满。

2026-03-20 00:03:00 250

原创 【CVPR26-四川大学-王韬】 |FOZO:一种高效的仅前向传播的测试时自适应新范式

FOZO通过高效的零阶优化来更新视觉提示(Prompt),在不修改模型任何权重的情况下,使预训练模型能够快速适应现实世界中不断变化的数据分布,尤其适用于计算和内存资源受限的边缘设备场景。:如图3所示,在模拟真实世界不可预测、多种分布偏移交替出现的“混合偏移(Mixed Shifts)”场景下,FOZO 依然展现出极强的适应性和稳定性,持续优于现有方法,证明了其在高度动态环境中的应用潜力。简单来说,FOZO 的优化速度不再受限于庞大的模型参数量,而是取决于问题的核心特征维度,这突破了传统高维优化的速度瓶颈。

2026-03-19 00:10:34 307

原创 【CVPR26-胡志明市开放大学】用于轻量级超分辨率中扩展感受野的统一卷积注意力网络

UCAN通过融合刺猬注意力、半共享机制、大核蒸馏和Flash Attention的创新设计,在轻量超分模型中实现了有效感受野的高效扩展,既解决了传统模型“看不远、算得慢”的痛点,又保留了丰富的图像特征和高重建精度,为端侧设备的图像超分辨率落地提供了高性能、高性价比的全新方案。将特征通道分为精细子集和粗集,仅在占比25%的精细子集上进行大核、膨胀卷积的复杂计算,粗集则做轻量处理,通过知识蒸馏的思路,让模型在极低的参数开销下,实现大核卷积的效果,有效保留图像的高频结构(如文字边缘、建筑纹理)。

2026-03-18 00:14:07 261

原创 【CVPR26-Min Tan-杭电】基于多线索学习的伪标签进化融合与优化:用于无监督伪装检测

杭州电子科技大学与浙江大学团队提出的EReCu框架,通过多线索原生感知、伪标签进化融合和局部精修三大模块的协同作用,实现了无监督伪装目标检测中语义可靠性与纹理保真度的共同进化,在多个基准数据集上达到SOTA性能,有效提升了复杂场景下伪装目标的边界检测精度和细节感知能力,为无监督伪装目标检测的研究提供了新的思路和基准。:移除任一核心模块均会导致性能明显下降,MNP与EPL的组合带来最显著的性能提升,证明各模块的互补性和整体框架的合理性,所有模块的协同集成是实现高性能的关键。

2026-03-17 00:06:30 216

opencv4.4.0+vs2019+已经编译好

opencv4.4.0+vs2019+已经编译好

2021-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除