Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation

本文链接：https://blog.csdn.net/weixin_43961909/article/details/145110224

题目

基于LLM的图形用户界面生成的零触发提示方法

在这里插入图片描述

论文地址：https://arxiv.org/abs/2412.11328

摘要

摘要——图形用户界面(GUI)原型代表了交互系统开发中的一项基本活动，交互系统如今无处不在。GUI原型有助于引出需求，并有助于测试、评估和验证用户和开发团队的想法。然而，创建GUI原型是一个耗时的过程，并且通常需要大量的资源。虽然现有的自动GUI生成研究主要集中在LLM的资源密集型训练和微调上，主要针对高保真GUI，但我们研究了零镜头(ZS)提示在高保真GUI生成方面的潜力和有效性。我们提出了一种检索增强的图形用户界面生成(RAGG)方法，该方法与基于大规模图形用户界面库的基于LLMbased的图形用户界面检索重排序和过滤机制相集成。此外，我们采用了提示分解(PDGG)和自我批评(SCGG)来生成GUI。为了评估所提出的用于GUI生成的ZS提示方法的有效性，我们广泛地评估了所生成的GUI原型的准确性和主观满意度。我们的评估涵盖了来自100多名具有UI/UX经验的群众工作者的3，000多个GUI注释，表明与PDGG和RAGG相比，SCGG可以更有效地生成GUI，并对LLM在生成的GUI原型中产生的缺陷提供了有价值的见解。

索引术语—图形用户界面原型、检索增强生成、提示分解、自我批评、零触发提示

简介

图形用户界面(GUI)使用户能够轻松地与软件系统进行交互，因此是交互系统开发过程中的一个重要产物。此外，GUI原型在它们的应用场景中是通用的，并且可以根据不同的需求为不同的目的而构造。例如，GUI原型是软件开发早期阶段的关键活动，在需求获取阶段，通过有形的工件促进需求的澄清和与涉众的持续沟通[1]–[3]。向客户提供GUI原型可以在早期将它们集成到开发活动中，并且可以引发与需求分析师的有意义的讨论，以避免误解。特别是，高保真GUI原型能够收集更具体的反馈[1]，[4]。此外，GUI原型可以帮助GUI设计者按照并行原型方法快速产生各种设计想法，从而能够在早期阶段评估替代GUI设计的潜力[2]。因此，GUI原型的使用因此可以有助于更高质量的最终软件产品。然而，高保真图形用户界面的原型同时也有缺点，即创建这些图形用户界面原型既昂贵又耗时[1]。此外，虽然GUI原型被用于需求引出，但是需求的不断变化和精炼是典型的[5]，需要频繁的GUI原型重新设计，这需要更多的资源。

为了减少这些缺点，最近的研究集中在自动生成GUI原型上。例如，教唆者[6]基于minGPT [7]在大量抓取的网页上训练，以基于文本描述和用户选择的GUI组件类型产生低保真度GUI布局。从头开始训练特定于任务的GPT模型的另一种方法是利用Rico [8] GUI存储库[9]对预训练的LLM进行微调。然而，这两种方法不仅需要资源密集的培训，而且只能以特定领域语言(DSL)创建低保真度的布局，这很难集成到实际的GUI原型工作流中。此外，MAxPrototyper [10]通过提示LLM实现了高保真GUI原型的创建。然而，他们的方法不仅需要文本描述作为输入，还需要完全开发的GUI布局，并生成专有的DSL。此外，他们的方法主要创建相关内容(例如，文本和图像)，但忽略了创建实际的GUI原型功能。最近在GUI原型开发中使用零触发提示的工作仅仅关注于GUI原型中需求实现的验证[11]，然而，没有研究从描述生成整个GUI原型的零触发提示。

虽然现有的研究只关注资源密集型培训和微调，以生成低保真度GUI原型，但对建立在零触发技术基础上的资源密集型方法的全面调查目前缺乏生成高保真GUI原型的软件。为了填补这一研究空白，在本研究中，我们探索了从HTML/CSS中的简短高级文本描述(NLR)生成高保真GUI原型的不同ZS提示方法的潜力和有效性。

我们的重点尤其在于ZS提示，因为(LLMs的训练或微调需要资源密集型训练，以及(ii)对于上下文学习(ICL) [12]，[13]，这对于GUI生成是必要的，因为高质量的GUI通常由数千个令牌组成。特别地，我们提出了检索增强的GUI生成(RAGG ),它结合了GUI检索方法在快速访问大型GUI库中包含的大量原型知识方面的优势和LLM的推理和适应能力。为了提高检索到的GUI原型的相关性，我们提出了一种基于LLM的重新排序方法，该方法明显优于最先进的(SOTA)方法[14]。此外，我们研究了GUI生成(PDGG)的ZS提示分解[15],使LLM能够生成有意义的中间推理输出，而不是直接从高级NLR生成低级HTML/CSS。这种方法更接近人类专家的过程，并确保LLM的计算能力得到更充分的利用。最后，我们研究GUI生成(SCGG)的自我批评[16]，在GUI原型和反馈循环中使用LLM本身。我们的源代码、数据集和附加材料在我们的知识库中公开提供[17]。

为了评估我们的方法，我们进行了广泛的评估，包括来自100多名具有UI/UX经验的群众工作者的3000多个GUI注释，评估内容是关于生成的GUI的准确性和主观满意度。结果表明，与ZS基线相比，所提出的ZS提示方法可以在许多方面显著增强GUI原型。

总而言之，我们做出了以下主要贡献:

我们提出了一种基于LLM的GUI重新排序机制，该机制明显优于SOTA方法
我们提出了一种检索增强GUI生成(RAGG)方法，该方法利用了大规模GUI存储库，并针对GUI生成采用了提示分解(PDGG)和自我批评(SCGG) ZS提示
我们通过从100多名熟练的群众工作者那里获得了3000多条GUI注释，并对LLM生成的GUIs II的缺陷进行了深入分析。

背景

在本节中，我们简要总结了我们所做的重要研究，包括基于NL的GUI检索和LLMs。基于NL的GUI检索,为了实现我们提出的RAGG方法的基于NL的GUI检索，我们严格遵循RaWi [14]方法。这种GUI检索方法最初采用了一种更简单的模型，它可以通过Rico GUI存储库[8]快速计算，这是一个大规模公开可用的数据集，包括GUI截图和移动应用的层次结构数据。例如，采用基于TF-IDF的BM25 [18]或使用余弦相似性的基于神经嵌入的SentenceBERT模型。我们将他们的方法与MAxPrototyper [10]中提出的使用Screen2Words (S2W) [19]的思想相结合，使用嵌入模型将NLR与高级GUI屏幕截图描述相匹配。

大型语言模型(LLM)，LLM是基于transformer架构的大规模生成模型，具有在大量文本数据上预处理的数十亿个参数[20]。随着GPT-3 [21]的发布，LLM尤其受到欢迎，表明LLM不仅具有少量学习能力，而且是零量学习者[22]，这允许快速适应模型没有专门训练过的新任务。之前的研究[23]中已经提出了大量有效的提示方法，从简单的基于指令的ZS提示[22]、思维链(CoT)提示[24]、[25]、提示分解[15]、CoT中的自洽[26]、自我批评[16]到更复杂的方法，如思维树(ToT) [27]、[28]、思维图(GoT) [29]、[30]、思维图链(GCoT) [31]、检索增强生成(Retrieval-Augmented Generation虽然这些提示方法显示出了很大的潜力，但是它们还没有被用于GUI生成。

方法

在这一节中，我们将介绍生成GUI原型的不同ZS提示方法。首先，我们介绍了用于衡量更全面方法的ZS基线。随后，我们提出了我们的组合提示分解(PDGG)，RAGG和自我批评(SCGG)的GUI生成提示方法(概述图1)。

基线:ZS指令和ZS-科特作为我们的ZS提示基线，我们首先采用ZS指令提示，包括一个基本任务的清晰描述，根据提供的简要文本描述创建一个HTML/CSS移动页面。作为目标语言，我们决定采用HTML/CSS，因为它是一种广泛使用的图形用户界面描述语言，支持与图形用户界面的交互，并且LLMs通常以这种格式进行预训练，充分利用LLMs的功能。为了提高用户交互的LLM响应的一致性，LLM通常使用具有人类反馈的强化学习进行优化[35]，从而提供解释和响应的结构化表示。特别是，用于GUI生成的LLM倾向于提供解释，并将HTML/CSS分离成markdown块。为了避免这