静下心慢慢来-CSDN博客

原创 OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer

omAgent用于长视频理解

2024-07-08 00:55:49 833

原创 VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding（翻译）

VideoAgent:一个用于视频理解的记忆增强多模态代理

2024-06-21 17:12:08 1012

原创 VideoAgent: Long-form Video Understanding with Large Language Model as Agent（翻译）

VideoAgent:以大型语言模型为代理的长格式视频理解

2024-06-21 12:23:39 1042

原创 C++函数模板

函数模板是用于生成函数的模板。在编译阶段，编译器会通过函数模板创建的函数拥有相同的函数体，只是函数的参数类型不同。

2024-06-12 23:33:24 185

原创 Gradio快速入门

Gradio 是一个开源 Python 包，可用于为机器学习模型、API 或任何任意 Python 函数快速构建演示或 Web 应用程序。然后，您可以使用 Gradio的内置共享功能在几秒钟内共享指向演示或 Web 应用程序的链接。无需 JavaScript、CSS 或虚拟主机经验！

2024-03-09 20:51:04 383

原创 Unknown Sniffer for Object Detection: Don’t Turn a Blind Eye to Unknown Objects（翻译）

多年来，在封闭世界环境[2,3,14,20,21,23,31-33,46]中检测类别有限的物体一直是常态。最近，自动驾驶的普及提高了物体检测的标准。也就是说，探测器应该同时探测已知和未知物体“已知对象”是属于预定义类别的对象，而“未知对象”是检测器在训练过程中从未见过的对象。检测未知物体对于应对更具挑战性的环境至关重要，例如具有潜在危险的自动驾驶场景。由于未知对象在训练集中没有标签，如何从有限的预定义类别中学习可以推广到未知类的知识是检测未知对象的关键问题。

2024-03-05 17:55:12 1087

原创 OW-DETR | 基于 Transformer 的开放世界目标检测器

开放世界目标检测 (OWOD) 是一个具有挑战性的计算机视觉问题，其任务是检测一组已知的目标类别，同时还能够识别未知的目标。此外，模型还必须逐步学习在训练中加入的新类别。与标准的目标检测不同，OWOD 对于在潜在的未知目标上生成高质量的候选建议、将未知目标从背景中分离出来以及检测不同的未知目标提出了重大挑战。本文中，作者提出了一种新的基于端到端 transformer 的框架 OW-DETR，用于开放世界目标检测。

2023-12-11 23:05:51 488

原创常见目标检测算法

简介了目前为止的流行的目标检测算法，包括one-stage，two-stage，anhcor-free目标检测模型。

2023-10-17 14:59:28 1580 1

weixin_56764022的博客