OmniParser 的工作流程主要包括两个核心阶段:结构化点检测和多边形与内容识别。这两个阶段协同工作,使得 OmniParser 能够高效、准确地解析用户界面,为 AI 智能体提供详细的、结构化的屏幕表示。本文将详细介绍这两个阶段的工作原理和具体实现。
一、结构化点检测
1. 标记关键元素位置
在结构化点检测阶段,OmniParser 首先在屏幕上标记关键元素(如文本、按钮和图标)的位置。这一步骤是通过识别每个元素在屏幕上的 “中心点” 来实现的。具体来说,OmniParser 使用基于 YOLOv8 的深度学习模型来检测屏幕截图中的可交互元素,如按钮、图标和菜单等。该模型通过大规模数据集训练,能够在复杂界面中精准锁定各类可交互图标和按钮,从微小的设置按键到醒目的功能模块,皆能精准勾勒边界框,识别其空间位置与轮廓。
2. 提供整体感知
通过标记关键元素的中心点,OmniParser 为 AI 提供了屏幕上元素位置的整体感知。这可以比喻为在地图上标注出所有有意义的点,比如标有 “提交” 的按钮或 “设置” 图标。这种整体感知使得 AI 能够快速了解界面上各个元素的分布情况,为后续的详细解析和操作提供基础。