📖标题:OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use
🌐来源:https://os-agent-survey.github.io/
🌟摘要
🔸创造像《钢铁侠》中虚构的J.A.R.V.I.S一样有能力、多才多艺的人工智能助手的梦想长期以来一直吸引着人们的想象力。随着(多模态)大型语言模型((M)LLM)的演变,这一梦想更接近现实,因为(M)基于LLM的代理通过在操作系统(OS)提供的环境和界面(例如图形用户界面(GUI))内操作来使用计算设备(例如计算机和移动电话)来自动化任务,已经取得了显著进展。
🔸本文对这些高级代理(称为OS代理)进行了全面的调查。我们首先阐明了操作系统代理的基本原理,探索了它们的关键组成部分,包括环境、观察空间和行动空间,并概述了理解、规划和接地等基本能力。然后,我们研究了构建操作系统代理的方法,重点关注特定领域的基础模型和代理框架。对评估协议和基准的详细审查突出了如何在不同任务中评估操作系统代理。最后,我们讨论了当前的挑战,并确定了未来研究的有前景的方向,包括安全和隐私、个性化和自