一、模型简介
DINO-XSeek 是一款基于多模态大语言模型的目标检测模型。该模型基于 DINO-X 统一视觉模型升级而来,在继承 DINO-X 高效、精准的视觉能力的同时,拥有多模态大语言模型强大的推理与理解能力。DINO-XSeek 能够根据用户输入的自然语言描述,分析对应的处理逻辑,最终推理出待检测目标的属性(如颜色、大小、姿势、穿着等)、方位(如朝向、距离、深度等)或者(物品之间或与环境的)交互关系,从而实现精准的目标定位。
与主流目标检测模型以物体为核心不同,DINO-XSeek 以“处理物体属性和关系”为核心,不再孤立地关注物体本身,而是专注于物体相关的处理逻辑。DINO-X 视觉模型解决了目标检测模型对非标准物体形态的鲁棒性差、难以检测变形物体以及部分遮挡时易漏检或误判的难题;而 DINO-XSeek 在此基础上,通过融合多模态大语言模型的能力,突破了主流目标检测模型此前缺乏高层语义推理,语义模糊情况处理不佳的困境。
以人类学习为例,以物体为核心的模型更像是幼儿启蒙阶段对物体的认知,如幼儿会辨认道路的“车”、随着见识(数据)增长,部分高阶的认知能够进一步识别物体基础的属性以及关系,如“红色的车”、“前面的车”、“大的车”、“货车”,但仍旧难以理解“正在执行任务的消防车”之类的更复杂的描述。相比之下,DINO-XSeek 则像是一位学生,已经建立起知识储备和对事务逻辑的理解,能够对“正在执行任务的消防车的云梯上拿着喷水枪的消防员”这样复杂的描述进行正确的辨认,而不是简单地标记“消防车”或“消防员”,真正实现了近似人类对复杂场景的理解能力。
Original | Result | Prompt |
| ![]() | The firefighter holding a water spray gun on the ladder of the fire truck that is carrying out a mission |
表1 DINO-XSeek 能够理解更复杂的指令
以“处理物体属性和关系”为切入点意味着,DINO-XSeek 将能够根据用户输入的业务处理逻辑来完成相关的目标检测任务,极大地降低了在实际生产应用中,用户基于视觉模型进行二次处理的后置开发成本。
举个例子,在当前的工厂流水线中,企业在使用视觉模型检测出零部件存在缺陷以后,需要进一步对缺陷进行分类,如划痕、裂纹、尺寸偏差等,并统计各种缺陷的出现频率和分布情况,为生产工艺的改进提供数据支持。而 DINO-XSeek 为生产工艺智能化提供了更多想象:比如通过使用 DINO-XSeek 精准区分出“划痕过多的零部件”、“带裂纹的零部件”或者“尺寸不合格的零部件”,企业便可以实现零部件缺陷的检测和分类工作全自动化,无需再像之前一样投入巨大的资源对零部件缺陷进行进一步分类和统计。
下表实测案例清晰地展示了 DINO-XSeek 在缺陷细节的深度识别能力,视觉模型全自动、精细化分拣零部件的未来将不再遥远:
Original | Result | Promp |
![]() | ![]() | The iron sheet with the most scratches |
| ![]() | The part with cracks |
| ![]() | The parts whose dimensions do not match those of most parts |
表2 DINO-XSeek 识别不同的缺陷细节
总结而言,DINO-XSeek 具备以下 4 大优势:
(1)多模态融合:将视觉信息与语言信息进行无缝融合,实现了真正意义上的多模态理解。
(2)强大的鲁棒性:在 DINO-X 强大的视觉感知基础上,显著提高了对非标准形态、部分遮挡以及多目标场景的检测性能。
(3)高层语义推理:借助大语言模型的自然语言理解能力,DINO-XSeek 能对复杂场景和描述进行灵活推理,解决了传统检测模型在处理模糊语义和推理指令时的瓶颈。
(4)高度可扩展:通过自然语言描述即可实现检测策略的灵活配置,极大降低了后续开发中的定制化成本。
通过将语言与视觉信息无缝融合,DINO-XSeek 真正达到了近似人类级别的检测逻辑,可为自动驾驶、工业制造、智能家具和机器人等各个行业带来更加智能化的视觉体验。
二、模型的技术架构
传统目标检测模型虽然在目标感知上表现优异,但缺乏对复杂语言的理解能力;而大语言模型在文本理解方面突出,却在精确目标定位上存在短板。为了解决这一矛盾,DINO-XSeek参考 ChatRex* 的模型架构,同样也采用了一种检索式框架:
1. 先使用开集目标检测模型 DINO-X 检测图像中的所有物体,并生成候选目标的边界框;
2. 然后,大语言模型根据指代表达,从检测出的目标集合中检索最相关的对象,而非直接预测坐标。
DINO-XSeek 模型概览图,其主要有三部分组成,包括提取视觉 token 的视觉编码器,提取物体 token 的目标检测模型,以及提取文本 token 的 tokenizer。三种 token 一起送入 LLM 中进行物体索引预测。这一设计避免了传统 MLLM 在检测任务上的泛化难题,使得 DINO-XSeek 能够精准处理多实例指代任务。
* ChatRex 出处:Jiang, Qing, et al. "ChatRex: Taming Multimodal LLM for Joint Perception and Understanding." arXiv preprint arXiv:2411.18363 (2024).
三、模型的识别原理
DINO-XSeek 主要根据用户输入的自然语言描述推理和理解待检测目标的逻辑特征,这些特征包括:
1. 目标属性
DINO-XSeek 能够识别对象的颜色、形状、姿势、动作、穿着等复合属性,支持更加精细化的目标区分。
Origianl | Result | Prompt |
| ![]() | The person wearing a black mask |
2. 目标方位
DINO-XSeek 能够理解空间概念,识别对象之间以及对象与环境之间的方位关系,如前后、距离、深度等。
origianl | result | prompt |
| ![]() | All people to the left of the woman in white cloth |
3. 交互关系
DINO-XSeek 检测对象间或对象与环境之间的交互行为,洞察图像中复杂的交互场景。
origianl | result | prompt |
| | People holding a sign that reads "CLIMATE CHANGING WHY AREN'T WE" |
DINO-XSeek 能够通过多模态大语言模型实现高层次推理,对多种条件和复杂描述逻辑进行拆解、融合,从而精确定位并判断对象的属性、状态以及相互关系。
四、应用场景
DINO-XSeek 可广泛应用于各个行业和实际生产场景,包含但不限于自动驾驶、工业制造与质检、农业与食品安全、智能安防等,为行业智能化升级带来全新动能。以下为部分典型场景示例:
图1 DINO-XSeek 的行业应用概览图
1. 自动驾驶行业
a)道路场景识别:对车载摄像头拍摄的道路图像进行标注,识别出道路、交通标志、车道线、行人、其他车辆等目标,帮助自动驾驶汽车理解周围环境,做出正确的行驶决策。
origianl | result | prompt |
![]() | ![]() | The road sign pointing to Soral |
| ![]() | The red motorbike |
b)障碍物检测:及时标注出图像中的障碍物,如路边的障碍物、突然出现的动物等,使自动驾驶系统能够提前做出制动或避让等操作,保障行车安全。
origianl | result | prompt |
![]() | ![]() | The tree on the road |
2. 工业制造与质检
a)安全合规检测:识别「未佩戴护目镜的操作员」「进入危险区域的工人」,触发语音警告。
origianl | result | prompt |
| ![]() | The worker not wearing a safety helmet |
| ![]() | The worker under the steel bars |
b)质量检测:针对流水线上生产的零部件或最终成品,自动识别并分类各种缺陷(如划痕、裂纹、尺寸偏差),为工艺改进提供更精准的数据参考。
origianl | result | prompt |
![]() | ![]() | abnormal light |
3. 农业与食品行业
a)农作物检测:根据发育程度对农作物进行分类,或识别腐坏、病虫害侵染的果实,有效提升种植和收获效率。
origianl | result | prompt |
| | Bad apple |
| ![]() | unripe tomato |
4. 公共安全与智能安防
a)视频搜人:通过输入「背黑色双肩包的男性」等语言描述,即可在大规模监控画面中快速定位相应目标。
origianl | result | prompt |
![]() | ![]() | The person with blond hair |
b)异常行为识别:检测「翻越围栏的行人」、「突然摔倒的老人」等危险行为,并触发实时告警,提升场所安全。
origianl | result | prompt |
| ![]() | The person with the face covered |
5. 智能家居与生活
a)危险行为识别:在家庭场景中自动识别老人意外摔倒等高风险状况,及时通知看护人员或发出紧急警告。
origianl | result | prompt |
| | The person who fell |
| | The child near the window |
想了解更多关于 DINO-XSeek 的内容,欢迎访问官方博客或体验中心:
DINO-XSeek 官方博客:https://deepdataspace.com/blog/dino-xseek
立即体验 Playground:https://cloud.deepdataspace.com/playground/dino-x