智能手机GUI自动化的综合认知LLM智体

最新推荐文章于 2025-04-21 18:17:45 发布

三谷秋水

最新推荐文章于 2025-04-21 18:17:45 发布

阅读量1.1k

点赞数 6

分类专栏：大模型智能体计算机视觉文章标签：语言模型自然语言处理人工智能

本文链接：https://blog.csdn.net/yorkhunter/article/details/139485528

版权

大模型同时被 3 个专栏收录

722 篇文章

订阅专栏

智能体

475 篇文章

订阅专栏

计算机视觉

426 篇文章

订阅专栏

24年2月上海交大的论文“Comprehensive Cognitive LLM Agent for Smartphone GUI Automation”。

大语言模型（LLM）作为类人的自主语言智体，在与现实世界环境交互方面，特别是在图形用户界面（GUI）自动化方面，显示出了巨大的潜力。然而，这些GUI智体需要全面的认知能力，包括详尽的感知和可靠的动作响应。作者提出综合认知LLM智体，CoCo-Agent，以及两种新方法，即综合环境感知（CEP）和条件动作预测（CAP），系统地提高GUI自动化性能。首先，CEP通过不同的方面和粒度来促进GUI感知，包括视觉通道的屏幕截图和辅助详细布局以及文本通道的历史动作。其次，CAP将动作预测分解为子问题：动作类型预测和以动作类型为条件的动作目标（target）。

最近的研究（Li2023b；Richards2023）使用语言智体一词来指代与环境或其他智体交互并解决问题的语言模型。

一条研究路线依赖于LLM强大的基础能力。基于ChatGPT或GPT-4，只有编写良好的提示才能构建自主智体。现有工作已经证明了基于GPT智体的推理、规划和泛化能力，例如，AutoGPT（Richards，2023）、BabyAGI（Nakajima，2023）。

然而，当期望实用性和可靠性时，追求可以定制和私有化的可训练语言智体，以与给定的环境保持一致（Shao2023）。因此，另一个研究方向转向开源语言模型的可训练方法。m-BASH（Sun2022b）采用ROI池来在基于BERT的多任务系统中呈现GUI图标。AutoUI（Zhang2023）在多模态T5（Raffel2020）上进行训练，将GUI交互公式化为第一个主要的VQA形式。CogAgent（Hong2023）将基于额外注意的高分辨率视觉模块与对齐的预训练方法相结合。

除了语言建模，最近的工作还研究了与其他模态的融合。由于LLM的发展，主流方法通常遵循以语言为中心的框架，即将其他模态的信息编码到语言嵌入空间中。这些模型包括其他模态的预训练编码器、语言模型和作为桥接器的适配器（或投影器）。例如，LLaVA（Liu2023）使用线性层来映射来自CLIP的视觉编码，而BLIP-2（Li2023c）则采用Q-former来学习表示图像的查询向量。这一努力导致各种多模态LLM的出现，如Flamingo（Alayrac2022）、mPLUG（Ye2023）、MiniGPT-4&v2（Zhu2020；Chen2021）、Video LLaMA（Zhang2023b）和SpeechGPT（Zhang2023a）。

然而，多模态感知对GUI智体来说更具挑战性。因为GUI包含大量具有复杂语义连接的详细信息，例如传达习惯含义的非常小的图标。在现有的视觉模块和GUI智体所必需的感知之间仍然存在差距。

如图所示：CoCo-Agent，展示其时间步长的感知和动作响应。CEP集成所显示的细粒度元素。预测的动作是根据CAP制定的。

添加图片注释，不超过 140 字（可选）

主干模型遵循LLaVA（Liu2023），它揭示了LLM对视觉模态的推广。LLaVA由Llama-2-chat-7B（Touvron2023）、视觉编码器（ENCODERimage）、CLIP（Radford2021）和一层线性投影（PRJ）组成，用于将图像特征桥接到语言嵌入空间（EMBEDtext）。
综合环境感知（CEP）完全利用了OCR工具，它提供了具有可读文本提示的细粒度布局，例如“ICON_SETTINGS: [0.1783, 0.8701]”。除了全局目标（goal）之外，还从三个方面感知环境状态，即当前屏幕截图、OCR的布局以及本经历先前的动作。

如表所示，逐步将动作更改为提示行，明确地分解和澄清这些动作。包括：AITW中JSON格式的GUI命令说明（左）和在CAP样式中的定义（右）。值得注意的是，dual_point动作被细化为三种类型：（i）滚动动作，如果起点和终点相距远于阈值（Rawles2023）；（ii）如果点击点落在边框中，则涉及项目名称的点击动作；（iii）点击动作，如果它不是滚动动作但不匹配边框。

添加图片注释，不超过 140 字（可选）