2023年目标检测研究进展

综述

首先关于写这个笔记,我个人思考了很久关于以下几点。1:18年开始从做OCR用到图像和文本这种多模态联合处理的后,也就有意识的开始关注自然语言处理,这样的结果导致可能停留在前期图像上的学习和实践,停滞的研究如果在观点理解上有误希望大家给出可落地的建议,在此感谢。

2:我是14年从数学建模应用实践开始入手在遥感,医学,自动驾驶,文字图像的底层原理研究及系统方向性探索。

3:离散信息和连续信息处理目前这种编解码思路效果挺好,但是时效成本导致对普通人意义不大,只是谈资并非重大工程进展,科学对普通人影响需要很多年,工程就很直接了。

4:我个人理解计算机视觉理论从成像原理,信号处理,数字图像处理,深度学习图像处理,通用人工智能图像处理,以后可能会在认知智能和具身智能上的突破需要的其实是一套软硬件联合发展系统认识方法论,工程化建模方法,生产力工具。所以该领域探索空间还是很大。

5:近期看到未来科技大奖非常激动,这是对在人工智能领域探索的人一个高度肯定。只不过这在深度学习领域目前从全球来看,做出重大贡献的是华人“孙剑,何凯明,贾杨清,韩松,陈天奇”都算而不是一篇论文署名。有一个细节点很多外界资料忽视了,该奖成果都是在微软亚洲研究院工作和实习期间完成了并非大学,所以说大学就…,。同时韩松老师其实非常强只是外行根本看不懂,他至今成功的将研究成果转为为公司卖掉两次了,同时目前在MIT。当然何凯明从去年听说要加入MIT,今年看已经落实了,纵观科学和产业界你可以不信大佬人品但永远不要怀疑大佬认知,MIT和Stanford及UCB还是现代科学巅峰殿堂。

6:个人总结了下计算机视觉深度学习领域相关贡献内容是Alexnet(首次实现训练),VGGNet(首次实现并行),ResNet(首次实现了恒等映射),MoblieNet(首次实现了depthwise和pointwise研究),SENet(首次实现注意力),ViT(首次实现可训练编解码器)的backbone;FasterRCNN,YOLO,SSD,CornerNet,CenterNet,CascadeRCNN,DERT,QueryDet,DiffusionDet。
7:未来探索应该还是图像和文本甚至语音之间方法互相借用,从而在多模态上表达更好的实验效果和科学理论体系探索。
8:由于算法规模指数增长,芯片和操作系统在没有重大进步之前人工智能系统性理论性的革命工作暂时不会有更好的成就,这也应该是目前很多领域一流学者重回学术界的本质,其实曾经贝尔实验室的肖克利和他七个学生也是这样,才有了今天的英特尔,AMD,NVIDIA。

摘要

1:本文主要总结近两年的部分目标检测成果。2:本文通过这些研究给出学派发展方向参考。3:本文针对理论基础研究进行探索性的分析。4:个人目前相关工作内容的一些基本的介绍(命名实体识别,文献情报分析,摘要内容生成,亚像素图像处理,超分辨图像处理,编码器,解码器,生成器,判别器,基于加瓦罗定理及海涅定理的认知计算理论研究,基于多模态可编程异构的下一代芯片设计,互联实时芯片操作系统)

Glod-YOLO(NIPS2023)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Focus-DETR(ICCV2023)

论文地址:https://arxiv.org/abs/2307.12612
代码地址:https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR
在这里插入图片描述
1:阐明目前虽然取得很好效果但是存在的问题是编码器的计算负担太重
2:本文基于问题给出的解决方案和及参考的方法论文和工程化建模方法
3:基于方法本文相对稀疏编码取得更好效果的结论证明该方法有效性
在这里插入图片描述在这里插入图片描述
1:介绍了本文的核心贡献,2:实现细节的工程化方法,3:该方法的核心理论效果,4:证明了这种设计结果优势
在这里插入图片描述
在这里插入图片描述
1:对取得的结果进行定性分析和定理分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
前后景的可视化效果
在这里插入图片描述
总结:
1:该论文结果非常严密,说明作者学术功底不错,写作规范和用语标准说明语言表达能力卓越
2:dual attention能给出非常详尽的算法理论实现逻辑基础,说明该作者数理逻辑和论文建模水平很高
3:一篇论文一般从摘要,结论,方法,实验过程看系统性,完整性,有效性,这篇论文具体的代码工程我没复现过效果,但是有一点个人认为不足的就是文献引用部分,这部分看了下,如果从论文方法注意力部分,模型结构,这种结构特点看结合文献,文献引用较差。说明作者在该领域时间并不久,系统性构建研究方法论的水平还有提提升空间
4:以上内容是针对本文阅读理解初步认识,不代表任何论文本身价值,仅此致敬相关研究领域的研究人员。

RT-DERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AlignDet在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

MonoDERT(CVPR2022)

文章地址:https://arxiv.org/abs/2203.13310 代码地址:https://github.com/ZrrSkywalker/MonoDETR
(1)提出了MonoDETR[1],第一个基于端到端DETR的检测器,用于没有额外输入的单目3D检测,它使object queries能够自适应地探索深度引导下的信息图像特征。
(2)MonoDETR引入了最小的手工制作设计,但通过具有复杂几何先验的最先进的基于中心的方法实现了具有竞争力的性能。
(3)MonoDETR是未来研究的一个简单但有效的Transformer baseline,进行了充分的消融研究以证明其有效性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Co-DERT(ICCV2023)

在这里插入图片描述
在这里插入图片描述

iDet3D(AAAI2024)

交互式3D目标检测器,Det3D支持用户友好的2D界面,可以减轻探索3D空间提供点击交互的认知负担,使用户能够以最少的交互来标注每个场景中的整个物体。考虑到三维点云的稀疏性,我们设计了负点击模拟( negative click simulation,NCS ),通过减少假阳性预测来提高精度。此外,iDet3D结合了两种点击传播技术,以充分利用用户交互:( 1 )密集点击引导( DCG ),用于在整个网络中保存用户提供的信息;( 2 )空间点击传播( SCP ),用于根据用户指定的对象检测同一类的其他实例。通过我们的大量实验,我们发现我们的方法可以在少量的点击中构建精确的注释,这表明了我们的方法作为三维物体检测的有效注释工具的实用性。
在这里插入图片描述

BEV-LaneDet(2023CVPR)

在这里插入图片描述在这里插入图片描述

CapDet(2023CVPR)

在这里插入图片描述
在这里插入图片描述

  • 14
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
截至2023目标检测领域的最新进展包括以下几个方面: 1. 弱监督目标检测:在目标检测中,通常需要大量的标注数据才能训练准确的模型。而弱监督目标检测则是通过利用更少的标注信息,如图像级标签、边界框标签等,来训练准确的目标检测模型。 2. 目标跟踪与检测融合:目标跟踪和目标检测计算机视觉领域中的两大核心任务。目标跟踪与检测融合技术可以将两者结合起来,既能够进行目标检测,又能够对目标进行跟踪,从而实现更加准确和鲁棒的目标检测。 3. 多任务学习的应用:多任务学习可以让一个模型同时学习多个相关任务,从而可以提高模型的泛化能力和效果。在目标检测中,多任务学习可以通过将目标检测与其他任务,如图像分割、姿态估计等结合起来,来提高目标检测的精度和效率。 4. 基于深度学习的一阶段目标检测器:传统的目标检测器通常采用两阶段的方式进行检测,即先产生候选框,再对候选框进行分类和回归。而基于深度学习的一阶段目标检测器则可以直接从图像中提取特征,并在特征图上进行目标检测,从而能够实现更加高效和准确的目标检测。 5. 自监督学习技术:自监督学习是一种无需大量标注数据的学习方法,它通过利用数据本身的特征来进行学习。在目标检测中,自监督学习可以通过利用图像中的上下文信息或者运动信息来进行目标检测,从而可以减少对标注数据的依赖。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值