解析 Ferret-UI：多模态大模型在移动用户界面理解中的应用

人工智能大模型讲师培训咨询叶梓

已于 2024-07-31 14:44:41 修改

阅读量3.2k

点赞数 41

分类专栏：人工智能文章标签： ui 语言模型人工智能手机深度学习多模态用户界面

于 2024-07-01 19:30:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140086652

版权

人工智能咨询培训老师叶梓转载标明出处

移动应用的爆炸性增长，用户界面（UI）的设计越来越复杂，功能也越来越丰富。但现有的多模态大模型（MLLMs）在理解用户界面时存在局限，尤其是在处理具有特定分辨率和包含众多小型对象（如图标、文本）的移动 UI 屏幕时。这些模型通常难以准确识别和操作界面上的特定元素，也难以执行基于自然语言指令的复杂任务。

苹果团队提出的Ferret-UI，正是为了解决这一问题而设计的。它是一款专门针对移动 UI 屏幕理解而优化的 MLLM，具备强大的引用、定位和推理能力。通过创新的“任意分辨率”技术，Ferret-UI 能够放大 UI 屏幕上的细节，并通过精确的区域注释来增强视觉特征的编码。这使得 Ferret-UI 能够在不同尺寸和方向的屏幕上，对 UI 元素进行更准确的识别和操作，从而更好地理解和响应用户的指令。

Ferret-UI 能够执行的不同类型的任务，例如小部件分类、图标识别、OCR 等

Ferret-UI 的训练涉及从基础到高级的广泛任务，包括图标识别、文本查找、控件列表生成，以及详细描述、感知/交互对话和功能推断等。这些训练样本的精心策划和格式化，为模型提供了丰富的视觉和空间知识，使其能够在更深层次上理解 UI，并执行开放性指令。

方法

Ferret-UI 模型是在 Ferret 模型的基础上发展起来的。Ferret 是一个多模态大型语言模型，擅长处理自然图像中的引用和定位任务。然而，移动 UI 屏幕通常具有不同于自然图像的特定特征，例如更长的屏幕比例和更小的交互元素。为了解决这一问题，Ferret-UI 引入了“任意分辨率”技术，允许模型自适应不同尺寸和比例的屏幕。