- 博客(8)
- 收藏
- 关注
原创 OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer
omAgent用于长视频理解
2024-07-08 00:55:49 833
原创 VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding(翻译)
VideoAgent:一个用于视频理解的记忆增强多模态代理
2024-06-21 17:12:08 1012
原创 VideoAgent: Long-form Video Understanding with Large Language Model as Agent(翻译)
VideoAgent:以大型语言模型为代理的长格式视频理解
2024-06-21 12:23:39 1042
原创 Gradio快速入门
Gradio 是一个开源 Python 包,可用于为机器学习模型、API 或任何任意 Python 函数快速构建演示或 Web 应用程序。然后,您可以使用 Gradio的内置共享功能在几秒钟内共享指向演示或 Web 应用程序的链接。无需 JavaScript、CSS 或虚拟主机经验!
2024-03-09 20:51:04 383
原创 Unknown Sniffer for Object Detection: Don’t Turn a Blind Eye to Unknown Objects(翻译)
多年来,在封闭世界环境[2,3,14,20,21,23,31-33,46]中检测类别有限的物体一直是常态。最近,自动驾驶的普及提高了物体检测的标准。也就是说,探测器应该同时探测已知和未知物体“已知对象”是属于预定义类别的对象,而“未知对象”是检测器在训练过程中从未见过的对象。检测未知物体对于应对更具挑战性的环境至关重要,例如具有潜在危险的自动驾驶场景。由于未知对象在训练集中没有标签,如何从有限的预定义类别中学习可以推广到未知类的知识是检测未知对象的关键问题。
2024-03-05 17:55:12 1087
原创 OW-DETR | 基于 Transformer 的开放世界目标检测器
开放世界目标检测 (OWOD) 是一个具有挑战性的计算机视觉问题,其任务是检测一组已知的目标类别,同时还能够识别未知的目标。此外,模型还必须逐步学习在训练中加入的新类别。与标准的目标检测不同,OWOD 对于在潜在的未知目标上生成高质量的候选建议、将未知目标从背景中分离出来 以及 检测不同的未知目标 提出了重大挑战。本文中,作者提出了一种新的基于端到端 transformer 的框架 OW-DETR,用于开放世界目标检测。
2023-12-11 23:05:51 488
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人