gorgeous(๑>؂<๑）-CSDN博客

原创【论文汇总】2D目标检测文章汇总，持续更新

记录自己比较感兴趣的2D目标检测文章。

2022-07-21 16:15:12 2256

原创【汇总】百宝囊

记录一下看过的一些讲解比较清楚的知识点

2022-07-18 18:57:44 320

原创【目标检测】小目标检测相关

小目标检测相关文章和竞赛汇总

2021-07-05 22:36:27 1951 7

原创【MM25-华南理工】Omni-IML：迈向统一的图像篡改定位

在Omni-273k数据集上，结合参考视觉提示的解释模块，在文本识别、位置定位、痕迹描述等细粒度指标上均优于传统方法，平均分数提升16%-23%，BLEU值最高达到0.360，大幅改善了多模态模型对篡改痕迹的解释准确性。Omni-IML通过模态自适应编码、动态解码与异常增强的创新设计，结合高质量通用数据集与可解释模块，首次实现了单一模型在多场景图像篡改定位任务中的SOTA性能，为统一化、可解释的图像取证技术提供了开创性解决方案。：通过自然语言描述篡改痕迹，解决了传统模型“只定位、不解释”的信任度问题；

2026-02-05 00:07:46 645

原创【ICLR26-金连文-华南理工】OMNI-IML: 迈向统一的可解释图像篡改定位

定位性能：Omni-IML在所有任务上均实现当前最优性能，自然图像IML平均IoU达0.612，文档IML平均IoU达0.745，人脸IML IoU达0.923，场景文本IML平均IoU达0.610。同时，现有可解释IML方案缺乏统一基准，尤其在文档、场景文本和未裁剪深度伪造图像上表现不佳，且标注质量受图像复杂度影响较大，多篡改区域或弱篡改特征场景下易出现描述错误。鲁棒性：在图像缩放、模糊、JPEG压缩等失真场景下，仍保持强劲性能，在NIST16数据集上的AUC值达0.918，显著优于现有方法。

2026-02-04 00:07:28 264

原创【哈工大-张永兵-arXiv26】PathReasoner-R1：通过知识引导的策略优化将结构化推理融入病理视觉语言模型

同时，领域内缺乏大规模、高质量的全切片图像（WSI）推理数据集，现有训练机制也难以让模型学到贴合病理诊断的严谨逻辑，双重瓶颈制约了AI在病理诊断中的可靠应用。：在自建数据集和SlideBench、CPath等公开基准上，PathReasoner-R1的诊断准确率、推理质量评分均达当前最优，BERT得分0.779，LLM评分2.583，远超传统模型和其他推理型模型。：在模糊病例中，能避免其他模型的“虚假证据”问题，通过严格的视觉特征匹配和逻辑排除，准确得出诊断，推理链与专家逻辑的对齐度提升8.1%。

2026-02-03 02:19:15 150

原创＜span class=“js_title_inner“＞【南洋理工-文碧汉-arXiv26】RSGround-R1:通过空间推理重新思考遥感视觉定位＜/span＞

更关键的是，现有模型常用的“交并比（IoU）奖励机制”存在缺陷：如果预测位置与实际目标完全不重叠，模型会得到“零分”，却无法判断自己是“差一点”还是“差很远”，难以逐步优化；为解决多次预测结果分散的问题，团队引入了空间一致性约束：通过计算同一查询下多次预测的“平均准确率”和“方差”，对预测分散的样本赋予更高训练权重，引导模型优先学习稳定的定位逻辑，避免反复横跳，提升结果的可靠性。可解释性强：思维链推理过程透明，不仅能定位目标，还能说明“为什么这么找”，便于实际场景验证；

2026-02-02 00:08:28 743

原创【南洋理工-文碧汉-arXiv26】RSGround-R1:通过空间推理重新思考遥感视觉定位

更关键的是，现有模型常用的“交并比（IoU）奖励机制”存在缺陷：如果预测位置与实际目标完全不重叠，模型会得到“零分”，却无法判断自己是“差一点”还是“差很远”，难以逐步优化；为解决多次预测结果分散的问题，团队引入了空间一致性约束：通过计算同一查询下多次预测的“平均准确率”和“方差”，对预测分散的样本赋予更高训练权重，引导模型优先学习稳定的定位逻辑，避免反复横跳，提升结果的可靠性。可解释性强：思维链推理过程透明，不仅能定位目标，还能说明“为什么这么找”，便于实际场景验证；

2026-02-02 00:08:28 906

原创【ICLR26-王欢-西湖大学】RewardMap：通过多阶段强化学习解决细粒度视觉推理中的稀疏奖励问题

题目分为5类（全局计数、局部计数、两类判断题+原有的路线规划题），难度从易到难梯度分布——简单题侧重基础视觉感知（如“数两条线之间的中间站数量”），难题聚焦复杂推理（如多换乘路线规划），为模型提供密集的训练反馈信号，助力“冷启动”训练。该研究通过“梯度化数据集+多阶段强化学习框架”，有效解决了精细视觉推理中的奖励稀疏问题，让多模态大语言模型在地铁图推理等任务中实现性能突破，同时提升了通用视觉理解与推理能力，为结构化视觉任务的模型优化提供了新范式。每个阶段内部随机打乱题目，避免模型死记硬背，提升泛化能力。

2026-02-01 00:16:48 441

原创＜span class=“js_title_inner“＞【澳门大学-郑哲东-ICLR26】SketchThinker-R1：迈向大型多模态模型中的高效草图式推理＜/span＞

通过在该数据集上微调基础多模态模型，为后续强化学习奠定初始的草图推理能力。为了精准引导模型的推理风格，专门训练了一个奖励模型：利用冷启动阶段的“长推理”和“草图推理”双模式数据，将长推理标注为0分、草图推理标注为1分，微调开源LLM使其具备区分推理风格的能力。SketchThinker-R1通过“冷启动注入初始能力+奖励模型引导风格+强化学习泛化”的三阶段框架，让大型多模态模型具备人类式的草图推理能力，在降低64%以上推理成本的同时保持甚至提升答案准确性，为高效多模态推理提供了全新解决方案。

2026-01-31 00:57:03 554

原创＜span class=“js_title_inner“＞【澳门大学-郑哲东-ICLR26】SketchThinker-R1：迈向大型多模态模型中的高效草图式推理＜/span＞

通过在该数据集上微调基础多模态模型，为后续强化学习奠定初始的草图推理能力。为了精准引导模型的推理风格，专门训练了一个奖励模型：利用冷启动阶段的“长推理”和“草图推理”双模式数据，将长推理标注为0分、草图推理标注为1分，微调开源LLM使其具备区分推理风格的能力。SketchThinker-R1通过“冷启动注入初始能力+奖励模型引导风格+强化学习泛化”的三阶段框架，让大型多模态模型具备人类式的草图推理能力，在降低64%以上推理成本的同时保持甚至提升答案准确性，为高效多模态推理提供了全新解决方案。

2026-01-31 00:57:03 335

原创【澳门大学-郑哲东-ICLR26】SketchThinker-R1：迈向大型多模态模型中的高效草图式推理

通过在该数据集上微调基础多模态模型，为后续强化学习奠定初始的草图推理能力。为了精准引导模型的推理风格，专门训练了一个奖励模型：利用冷启动阶段的“长推理”和“草图推理”双模式数据，将长推理标注为0分、草图推理标注为1分，微调开源LLM使其具备区分推理风格的能力。SketchThinker-R1通过“冷启动注入初始能力+奖励模型引导风格+强化学习泛化”的三阶段框架，让大型多模态模型具备人类式的草图推理能力，在降低64%以上推理成本的同时保持甚至提升答案准确性，为高效多模态推理提供了全新解决方案。

2026-01-31 00:57:03 235

原创【中国科学技术大学-吴枫-ICLR26】CapRL: 通过强化学习激发密集图像描述能力

更关键的是，“好的图片描述”本身很主观，之前的评估方法要么容易被模型“钻空子”（比如故意写冗长或简短的文字讨好评价模型），要么没法准确衡量复杂描述的质量，导致模型进步受限。CapRL通过“描述生成+答题验证”的两阶段强化学习框架，把主观的图片描述质量转化为客观奖励，既解决了传统方法依赖人工标注、描述单一的问题，又实现了模型能力的越级提升，为视觉语言模型的预训练和图像描述任务提供了更高效、更可靠的新方案。纯语言模型的答题准确率，就是给生成描述的“客观奖励”——描述越全面准确，答题正确率越高，奖励就越多。

2026-01-30 01:13:59 394

原创【ICLR26-王欢-西湖大学】MergeMix：一种用于视觉和多模态理解的统一增强范式

将原始清晰图像定义为“优质答案（Winner）”，MergeMix 生成的混合图像定义为“非优选答案（Loser）”，并将混合比例作为软偏好分数，通过改进的混合 SimPO 损失函数实现自适应偏好调优，无需额外训练奖励模型。MergeMix 以令牌合并技术为核心，通过统一的增强与偏好对齐框架，既解决了传统数据增强的质量失控问题，又打破了 SFT 与 RL 在多模态对齐中的性能权衡，为视觉与跨模态模型提供了高效、稳定、通用的训练新范式。：无需针对特定任务修改架构，无缝适配图像分类与多模态理解，迁移成本低。

2026-01-29 01:26:10 407

原创＜span class=“js_title_inner“＞【ICLR26-王欢-西湖大学】MergeMix：一种用于视觉和多模态理解的统一增强范式＜/span＞

将原始清晰图像定义为“优质答案（Winner）”，MergeMix 生成的混合图像定义为“非优选答案（Loser）”，并将混合比例作为软偏好分数，通过改进的混合 SimPO 损失函数实现自适应偏好调优，无需额外训练奖励模型。MergeMix 以令牌合并技术为核心，通过统一的增强与偏好对齐框架，既解决了传统数据增强的质量失控问题，又打破了 SFT 与 RL 在多模态对齐中的性能权衡，为视觉与跨模态模型提供了高效、稳定、通用的训练新范式。：无需针对特定任务修改架构，无缝适配图像分类与多模态理解，迁移成本低。

2026-01-29 01:26:10 543

原创【华东师范-林绍辉组-ICLR26】Vision-R1

Vision-R1通过模态桥接构建高质量数据集、PTST策略优化强化学习流程，首次实现了强化学习在多模态大模型推理能力提升中的有效应用，让7B参数模型具备对标70B+参数模型的推理性能，为多模态智能的实用化推进提供了全新范式。训练层面：直接将强化学习（RL）应用于多模态大模型时，由于缺乏高质量多模态推理数据，模型难以生成复杂连贯的推理过程，甚至出现推理步骤冗长却性能下降的“过度思考”问题，导致推理能力提升受限。：模态桥接技术突破人工标注瓶颈，实现高质量数据集的低成本构建，可扩展性强。

2026-01-28 08:34:13 510

原创＜span class=“js_title_inner“＞【华东师范-林绍辉组-ICLR26】Vision-R1＜/span＞

Vision-R1通过模态桥接构建高质量数据集、PTST策略优化强化学习流程，首次实现了强化学习在多模态大模型推理能力提升中的有效应用，让7B参数模型具备对标70B+参数模型的推理性能，为多模态智能的实用化推进提供了全新范式。训练层面：直接将强化学习（RL）应用于多模态大模型时，由于缺乏高质量多模态推理数据，模型难以生成复杂连贯的推理过程，甚至出现推理步骤冗长却性能下降的“过度思考”问题，导致推理能力提升受限。：模态桥接技术突破人工标注瓶颈，实现高质量数据集的低成本构建，可扩展性强。

2026-01-28 08:34:13 430

原创【沃尔玛全球科技-Zezhong Fan-AAAI26】Segment and Matte Anything in a Unified Model

视觉效果上，能清晰抠出头发丝、透明玻璃的通透质感，解决了传统模型“抠不干净”的痛点。SAMA以轻量化设计实现了分割与抠图的统一，既继承了SAM的灵活交互与泛化能力，又补齐了精细边界处理的短板，为图像编辑、自动驾驶感知等场景提供了更高效的解决方案。：SAM凭借10亿级掩码训练数据，支持点、框、文本等多种交互提示，零样本泛化能力超强，但输出掩码的边界精度不足，缺乏亚像素级细节，无法直接用于精细抠图。关键是，SAMA训练时冻结了SAM的全部参数，仅微调新增模块，既保证了数据效率，又不会丢失SAM的核心优势。

2026-01-27 01:15:36 582

原创【Google DeepMind-Ziyi Wu-arXiv26】360Anything

传统方法要把普通视角“贴”到全景画面上，必须知道相机的视场角（FoV）、拍摄姿态（俯仰、翻滚等），但现实中大部分“野生”素材（比如手机随手拍、网上下载的视频）都没有这些校准信息，就算靠外部工具估算，结果也容易出错，导致生成的全景变形、错位。：意外解锁“反向技能”——虽然没专门训练过相机校准，但能通过生成的全景反推输入素材的视场角和拍摄姿态，在多个真实数据集上的估算误差仅4.93°，仅次于专门的校准模型，展现了强大的几何理解能力。就算是AI生成的“野生”视频、大运动幅度的素材，也能生成稳定、无畸变的全景。

2026-01-26 08:36:03 359

原创＜span class=“js_title_inner“＞【Google DeepMind-Ziyi Wu-arXiv26】360Anything＜/span＞

传统方法要把普通视角“贴”到全景画面上，必须知道相机的视场角（FoV）、拍摄姿态（俯仰、翻滚等），但现实中大部分“野生”素材（比如手机随手拍、网上下载的视频）都没有这些校准信息，就算靠外部工具估算，结果也容易出错，导致生成的全景变形、错位。：意外解锁“反向技能”——虽然没专门训练过相机校准，但能通过生成的全景反推输入素材的视场角和拍摄姿态，在多个真实数据集上的估算误差仅4.93°，仅次于专门的校准模型，展现了强大的几何理解能力。就算是AI生成的“野生”视频、大运动幅度的素材，也能生成稳定、无畸变的全景。

2026-01-26 08:36:03 887

原创【港科大-郑自强组-WACV26】ORCA: 海洋物种目标识别与理解

ORCA数据集用“全物种覆盖+精细双模态标注+科研化任务设计”，为AI进军海洋研究搭建了首个全面基准，让机器从“看懂海洋生物”向“理解海洋科研需求”迈出关键一步，未来将有力支撑海洋生态保护、生物多样性监测等重要工作。：不仅能支撑目标检测、图像描述、视觉定位三大核心任务，还设计了“类级、类内、类间”三种评估场景，专门测试AI在相似物种识别中的表现，贴合真实科研需求。：是首个同时具备“广物种覆盖、细粒度标注、多任务支持”的海洋数据集，解决了长期以来海洋AI缺乏优质数据的痛点。

2026-01-25 01:02:15 350

原创＜span class=“js_title_inner“＞【港科大-郑自强组-WACV26】ORCA: 海洋物种目标识别与理解＜/span＞

ORCA数据集用“全物种覆盖+精细双模态标注+科研化任务设计”，为AI进军海洋研究搭建了首个全面基准，让机器从“看懂海洋生物”向“理解海洋科研需求”迈出关键一步，未来将有力支撑海洋生态保护、生物多样性监测等重要工作。：不仅能支撑目标检测、图像描述、视觉定位三大核心任务，还设计了“类级、类内、类间”三种评估场景，专门测试AI在相似物种识别中的表现，贴合真实科研需求。：是首个同时具备“广物种覆盖、细粒度标注、多任务支持”的海洋数据集，解决了长期以来海洋AI缺乏优质数据的痛点。

2026-01-25 01:02:15 501

原创【厦门大学-曹刘娟组-arXiv25】进化，而非训练：通过进化提示实现零样本推理分割

不同于传统方法的“单提示输入”，EVOL-SAM3初始化一个包含10-20个“提示假设”的动态池（比如针对“红色椅子上的人”，提示池会包含“红色物体+人形区域”“椅子轮廓+人体关键点”等不同角度的提示），每个提示对应一个初步分割结果，为后续进化提供“基因多样性”。：引入“视觉竞技场”——无需外部标签，而是让两个提示的分割结果“两两竞赛”，通过对比“语言查询匹配度”（如是否包含“红色”特征）和“空间完整性”（如是否完整覆盖“椅子”区域），自动打分筛选优质提示；

2026-01-24 00:01:02 263

原创＜span class=“js_title_inner“＞【厦门大学-曹刘娟组-arXiv25】进化，而非训练：通过进化提示实现零样本推理分割＜/span＞

不同于传统方法的“单提示输入”，EVOL-SAM3初始化一个包含10-20个“提示假设”的动态池（比如针对“红色椅子上的人”，提示池会包含“红色物体+人形区域”“椅子轮廓+人体关键点”等不同角度的提示），每个提示对应一个初步分割结果，为后续进化提供“基因多样性”。：引入“视觉竞技场”——无需外部标签，而是让两个提示的分割结果“两两竞赛”，通过对比“语言查询匹配度”（如是否包含“红色”特征）和“空间完整性”（如是否完整覆盖“椅子”区域），自动打分筛选优质提示；

2026-01-24 00:01:02 415

原创＜span class=“js_title_inner“＞【厦门大学-曹刘娟组-arXiv25】进化，而非训练：通过进化提示实现零样本推理分割＜/span＞

不同于传统方法的“单提示输入”，EVOL-SAM3初始化一个包含10-20个“提示假设”的动态池（比如针对“红色椅子上的人”，提示池会包含“红色物体+人形区域”“椅子轮廓+人体关键点”等不同角度的提示），每个提示对应一个初步分割结果，为后续进化提供“基因多样性”。：引入“视觉竞技场”——无需外部标签，而是让两个提示的分割结果“两两竞赛”，通过对比“语言查询匹配度”（如是否包含“红色”特征）和“空间完整性”（如是否完整覆盖“椅子”区域），自动打分筛选优质提示；

2026-01-24 00:01:02 554

原创【阿里巴巴-wang yong-arXiv26】基于地图的思考：用于地理定位的增强型并行地图辅助智能体

给大语言-视觉模型配上地图工具和“并行思考”能力，让AI像人一样查地图、多验证，彻底解决了图像地理定位“不准、不泛化、不可信”的痛点，为街景识别、野外导航、图像溯源等场景提供了更靠谱的技术方案。过去，图像定位要么靠“找相似图”（从带地理标签的数据库里检索），要么靠“猜区域”（把地球分成小块分类），但这些方法离不开海量训练数据，遇到没见过的野外场景就失灵。缺“工具思维”：人类找位置都会查地图验证，可AI只会靠自己的“记忆”推理，容易出错；推理可解释：每一步定位都有地图验证依据，不是“瞎猜”，结果更可信；

2026-01-23 00:03:21 246

原创【中南大学-李海峰组-arXiv25】像苏格拉底那样提问：苏格拉底助力视觉语言模型理解遥感图像

比如问“有没有能停飞机的空登机口”，AI会先确认“这是机场吗？更妙的是，会告诉推理者“感知者听不懂复杂问题”，告诉感知者“推理者逻辑差”，逼着双方一步步沟通，生成高质量推理轨迹。“扫视效应”坑了AI：现有模型大多只“瞥一眼”就开始推理，靠语言逻辑自圆其说，而非真的找视觉证据——比如把5架飞机数成7架，明明有空闲登机口却断言“没有”，这种“伪推理”让结果可信度大打折扣。RS-EoT范式让AI学会了“像人一样反复检查遥感图像”，用苏格拉底式的追问打破了“扫视效应”，为遥感智能解读提供了更可信、更精准的新方案。

2026-01-22 02:31:14 493

原创【港科大-郑自强组-arXiv25】MarineEval: 评估视觉语言模型的海洋智能能力

遗憾的是，此前没有专门的测评工具来检验VLMs的海洋领域实力，通用测评无法贴合海洋研究的特殊需求，这也成为制约AI助力海洋科学发展的关键瓶颈。多维度覆盖：包含2000个高质量图像问答对，涵盖7大任务维度（物种识别、行为特征提取、文献解读、保护与威胁分析、空间推理、海洋技术理解、抗幻觉能力）和20个细分能力维度，全面覆盖海洋研究核心需求。专业性强：首次将海洋领域特殊需求融入测评，问题聚焦海洋专属知识（如物种分类、IUCN保护等级）和水下视觉特点（低对比度、运动模糊、复杂栖息地），测评更具针对性。

2026-01-21 00:07:30 341

原创【港中文-岳翔宇组-arXiv25】OneThinker: 用于图像和视频的统一推理模型

更贴心的是，还专门给34万样本加了“思考过程”注释（比如“先找图片里的圆，再用几何定理算角度”），让模型一开始就知道“怎么想”，而不只是“怎么答”。不管是答题、追踪还是分割，都让模型用统一格式输出——先写思考过程，再给结果（比如分割任务输出坐标，答题任务输出选项），不用为不同任务设计不同接口，大大提升了实用性。：不同任务的“评分标准”不一样（比如答题对了给满分，定位准了给渐变分），直接一起训练会导致有的任务被忽视，模型整体性能拉胯。：目前最多支持128帧视频，面对超长篇视频（比如几小时的纪录片）还需优化；

2026-01-20 00:21:42 280

原创【港科大-郑自强组-ICCV25】CoralSRT：通过自监督引导的特征校正重新探索珊瑚礁语义分割

稀疏到密集转换：在100个标注点下，CoralSRT 结合 CoralSCOP 基础模型，mIoU 达到74.32%，远超 SAM 2的33.18%和传统方法 Fast-MSS 的28.34%；CoralSRT 通过自监督特征校正，打破了珊瑚礁语义分割对海量标注和领域数据的依赖，为无固定结构目标的分割提供了高效解决方案，也为生态监测的规模化应用奠定了技术基础。研究团队提出的 CoralSRT（珊瑚自监督校正训练）方法，以"段"为核心构建分割逻辑，无需额外标注、不微调基础模型，就能实现高效语义分割。

2026-01-19 00:05:17 406

原创【中国科学院光电研究所-张建林组-AAAI26】追踪不稳定目标：基于外观引导的运动建模在无人机拍摄视频中实现稳健的多目标跟踪

AMOT通过融合外观与运动信息的AMC矩阵和轨迹复活MTC模块，解决了无人机多目标跟踪中“匹配不准”“轨迹断裂”的核心痛点，为实时、稳健的无人机监控提供了高效解决方案。VT-MOT-UAV：面对复杂光照和杂乱背景，仍实现52.7%的IDF1和31.8%的MOTA，优于SORT、FairMOT等经典算法。视角多变+运动复杂：无人机飞行时视角频繁切换（近拍变远拍、左拍变右拍），且与地面目标的相对运动剧烈，导致目标外观和位置变化极大；先通过目标外观特征（ReID嵌入）生成响应图，预测目标在相邻帧的位置；

2026-01-18 00:08:52 635

原创【电子科大-李晶晶组-AAAI26】利用专用提示引导泛化视觉 - 语言模型

GuiDG通过“培养领域专家+智能整合意见”的两步策略，在几乎不增加计算成本的前提下，完美平衡了视觉语言模型的“专精性”与“泛化性”，为下游任务适配提供了高效且可靠的新方案。此外，研究者还构建了一个全新的测试集ImageNet-DG，结合ImageNet及其多个变体，专门用来检验模型在少样本场景下的泛化能力，解决了现有测试集场景单一的问题。简单说，现有方法大多用一个“全能模型”应对所有场景，却始终无法解决“专”与“博”的核心矛盾，这也成为制约视觉语言模型落地的关键瓶颈。

2026-01-17 09:25:27 390

原创【电子科大-Li Xin组-AAAI26】用于图像恢复的测试时偏好优化

更麻烦的是，要让模型贴合人类偏好，要么需要大量人工标注的偏好数据（耗时耗力，目前还没有专门的图像修复偏好数据集），要么得重新训练模型（成本高，还不兼容不同架构的修复模型），这让“让AI修图符合人类审美”成为行业难题。以原始修复图为基础，用扩散模型的去噪过程做优化——把“赢样本”和“输样本”作为奖励信号，让模型在去噪时“向好看的靠拢、避开不好看的”，同时通过频率分解技术，保证图像结构不跑偏（低频率部分保结构，高频率部分优细节）。：可以选择不同的扩散模型（FLUX画质优、SD3速度快），适配不同场景需求。

2026-01-16 00:10:05 276

原创【厦门大学-涂晓彤组-AAAI26】用于通用图像融合的自监督多路共识Mamba

SMC-Mamba通过多专家协作、自监督细节增强与创新扫描机制，成功突破现有图像融合技术的任务适配、细节捕捉与效率平衡难题，为红外-可见光、医疗、多聚焦等多场景融合提供了高效通用的解决方案，同时为下游视觉任务提供更强支撑。：多数方法是“专才”而非“通才”，只能处理红外-可见光融合、医疗图像融合等单一任务，无法灵活应对多聚焦、多曝光等不同场景的融合需求。全局分支：结合空间-通道扫描与频率-旋转扫描，高效建模全局上下文信息，同时捕捉图像的频率域关系，避免“只见树木不见森林”。

2026-01-15 02:18:26 584

原创【西北工业大学-邢颖慧组-AAAI26】YOLO-IOD:实时增量目标检测

新基准彻底解决了传统基准的图片重复问题：先统计类别共现规律（比如"汽车"和"行人"常一起出现，"汽车"和"船"很少同框），再通过聚类把常共现的类别分到同一阶段，最后确保每张图片只出现在一个训练阶段，从根源上杜绝数据泄露，让模型评估更公平、更贴近实际应用。YOLO-IOD通过三大创新模块破解了YOLO系列增量检测的核心矛盾，搭配真实场景的LoCo COCO基准，实现了"学新不忘旧"与实时性的完美平衡，为智能驾驶、实时监控等场景的增量检测需求提供了高效可行的解决方案。：解决前景背景混淆。

2026-01-14 00:09:07 356

原创【华科-王岳环组-AAAI26】深度协同 Mamba 与记忆专家结合用于全天图像反光分离

针对夜间数据短缺的问题，研究者构建了NightIRS数据集，包含1000组夜间反光图片 triplet（混合图+真实场景图+反光图），覆盖路灯、霓虹灯、低光环境等多种夜间场景，还考虑了不同玻璃厚度、拍摄角度的影响，给AI提供了充足的“夜间实战素材”。尤其是夜间场景，问题更突出：自然光线消失后，人工光源分布杂乱，玻璃后的场景偏暗，而玻璃表面的灯光反光又强，两者对比度接近，分离难度直接翻倍。更关键的是，目前专门用于训练夜间反光分离模型的数据集特别少，AI缺乏“夜间练手素材”，性能自然受限。

2026-01-13 00:37:04 265

原创【大连理工-张璐组-NIPS25】FineRS：基于强化学习的小目标细粒度推理与分割

全局语义探索（GSE）：先扫整张4K图，结合用户指令（比如“找网球场上的黄色滑梯”），先给出初步答案（“黄色”），再圈出一个256×256的“粗略区域”——不用精准，但能确保小物体在这个范围内，避免遗漏；FINERS通过“粗到细探索+强化学习联动”的创新架构，搭配专属的超小物体高清数据集，解决了高分辨率图像中极小目标“看不清、找不准”的痛点，为无人机巡检、高清监控分析等场景提供了更实用的AI解决方案。分辨率限制：为了避免内存过载，模型会压缩高分辨率图像，导致超小物体的细节丢失，根本“看不清”；

2026-01-12 00:18:53 305

原创【北京大学-唐浩组-arXiv26】AnyDepth: Depth Estimation Made Easy

AnyDepth用“轻量化解码器+动态上采样+数据优质化”的组合拳，在不牺牲精度的前提下，大幅降低了单目深度估计的资源消耗，让这项技术从“实验室”走向“实际应用”更简单，为边缘设备部署提供了高效解决方案！：主流方法（如DPT）为了追求精度，采用多分支跨尺度特征融合结构，需要大量参数支撑（仅解码器就达50-100M参数），计算量大、推理慢，边缘设备根本扛不住；在会议室、走廊、休息区等真实场景中，AnyDepth生成的深度图边界更清晰，复杂区域的距离判断更准确，完全能满足机器人导航、场景感知等实际需求。

2026-01-11 00:25:53 470

opencv4.4.0+vs2019+已经编译好

空空如也