PRE-TRAIN large language models for industrial control,大语言模型的工业控制 论文

论文地址:https://arxiv.org/abs/2308.03028

1 介绍

通过GPT-4 对工业HVAC (采暖、通风、空调)进行控制

主要研究疑问:

1)GPT-4控制暖通空调的效果如何?

2) GPT-4能在多大程度上推广到暖通空调控制的不同场景?

3)不同的设计对性能有何影响?

demonstrations示例样本不足以强化学习,the transition dynamics and even the state/action spaces may be different。

由此 有先验知识的大语言模型可能是解决方式。GPT-4(openAI), Bard(谷歌 聊天), DALL-E(openAI 图像), CLIP(图像描述) ,主要关注large language models(LLMs)前两个。

主要有三个应用方式:

a. 针对特定的下游任务对llm进行微调,将llm与可训练的组件相结合,并直接使用预训练的llm

b. 使用可训练值/可行性/可用性/安全性函数修改LLM的输出或使用LLM作为可训练决策系统的组成部分,如任务解释、推理、规划或作为世界模型。

c. 使用预先训练的llm直接遵循上下文学习(ICL)范式,研究人员专注于开发提示技术或设计多回合机制提高性能。

我们专注于工业控制任务,对传统的强化学习方法有三个挑战:

a. 决策机器人通常面临一系列异构任务(动作-状态空间,过渡变化动态)

b. 决策机器人需要在低技术债务(开发过程中避免引入复杂,不可维护,难以理解的设计)的情况下开发,这表明与典型强化学习算法所需的大数据相比,提供的样本不足,并且设计特定任务的模型会很难。

c. 决策代理应该以在线方式快速适应新场景或不断变化的动态(例如,仅基于少量在线交互经验,但不需要训练)。

我们建议直接使用预训练的llm来控制HVAC。该方法可以解决样本较少的异构任务,因为我们不涉及任何训练过程,只使用样本作为上下文学习的少数几个演示。

本文方法介绍:

我们首先设计了一种机制(mechanism),从专家演示(expert demonstration)和历史交互(historical interactions)中选择演示,并设计了一个提示生成器(historical interactions),将目标、指令、演示和当前状态转换为提示。稍后,我们使用生成的提示符执行llm给出的控制。

我们的目标是研究不同的设计如何影响llm应用于工业控制任务的性能,因为许多方面仍然难以捉摸。

一,虽然该方法概念简单,但与传统决策方法相比,其性能尚不明确。

二,是基础的泛化能力

三,该方法对不同语言包装器设计的敏感性也值得研究(例如,提示符的哪一部分对性能影响最大)。

贡献:

本技术报告的贡献总结如下:

+ 开发了一种无需培训的方法来使用工业控制的基础模型,它可以跨异构任务使用低技术债务。

+ 以GPT-4控制暖通空调为例,得到了积极的实验结果,说明了这种方法的潜力。

+ 提供了扩展的消融研究(在泛化能力,示范选择和提示设计方面),以阐明该方向的未来研究。

2 相关信息

上下文学习(ICL)。虽然微调通过更新其参数来调整模型,但ICL尝试设计提示、演示和查询,以便在不更改其参数的情况下从llm获得良好的响应。

此外,由于以下两个原因,ICL适用于需要以低技术债务开发控制器的场景:1)通过更改演示和模板,很容易将专家知识纳入llm,因为它们是用自然语言编写的。2) ICL无需训练,降低了计算成本,易于快速适应模型到实际工作任务。尽管ICL很有前景,但从经验上看,ICL的性能对提示符(prompt)的设计和演示的选择甚至顺序都很敏感,目前尚不清楚这些设计如何影响ICL在工业应用中的性能。

注: ICL中prompt是一个文本或者指令,用于引导或提示用户提供进一步的信息或者提示。通常包含用户的请求

随着大型语言模型的成功,有一种趋势是用大量行为数据集训练通才智能体(generalist agent),但它们目前远低于紧急能力的临界尺度(包括模型、数据集和计算的尺度)

与已有的LLM进行交互是更好的方法。此方向的论文集中在设计机制来解决使用llm作为控制器或规划器时的可执行性和正确性问题。例如,llm的输出可以通过附加价值函数进行修正或语义翻译;llm的生成过程可以分解为多个模块或步骤。然而,我们发现通过在实际场景中开发适当的ICL技术,仍然有可能直接从LLM中引出可执行的和正确的操作。此外,研究LLM的直接控制能力应该是我们了解LLM如何工作以及如何以LLM可以遵循的方式格式化任务的不可或缺的一步。

暖通空调控制:节能和保持热舒适为目标,对建筑的暖通空调控制进行了研究。

暖通空调控制已经研究了很长时间,并且代表了广泛的工业控制问题(Belic等人,2015;Afroz et al., 2018)。以往的暖通空调控制方法大致可分为三类:经典控制方法、预测控制方法和智能控制技术。经典方法的一个代表性例子是PID(比例-积分-导数)控制器。预测控制方法(也称为模型预测控制,MPC)通常通过预测系统未来的动态行为并相应地调整控制器的响应来实现较好的控制效果。虽然预测控制依赖于对物理环境的正确建模,但智能控制技术可以更鲁棒并适应不同的条件。智能控制的例子包括模糊逻辑控制基于遗传算法的方法、基于深度学习的方法和基于强化学习的方法。然而,这些方法需要很高的技术债务(例如,建模问题、开发算法、收集样本和查询专家知识的努力),因此与现代工业场景中快速发展的需求不相容。

3 方法详细介绍

组件

LLM,通过GPT-4作为决策者,给一个prompt(包括提示符包含对当前状态的描述,简单控制说明,相关状态的示例,等等)

环境,交互式环境或模拟器允许执行LLM建议的操作并提供反馈。在我们的实验中,我们使用BEAR作为评估环境。要在BEAR中创建环境,必须提供两个参数:建筑类型(如大型办公室、小型办公室、医院等)和天气条件(如干热、湿热、温暖干燥等)。此外,值得注意的是,每种天气状况都对应于特定的城市。例如,炎热和干燥的天气条件与水牛城(一个城市)有关。

在线缓冲,我们设计了一个演示队列来存储llm及其环境之间的交互。提示符生成器利用该信息创建提供给LLM的部分提示符。

翻译 Translator,在BEAR环境中,原始状态被表示为实数向量,这使得LLM很难直接处理它们,我们将在实验部分简要说明这一点。为了克服这个问题,我们引入了translator组件,它将数字状态转换为自然语言表示,同时保留所有相关信息。在我们的方法中,我们区分以下翻译人员:

  • meta Translator
    • 环境转换器用于提取与被控制暖通空调所在的建筑类型和天气条件相关的元信息。
    • 例:你是一名暖通空调管理员,负责管理一栋位于布法罗的中型办公大楼,这里的气候炎热干燥。
  • instructionTranslator
    • 指令转换器 根据外部温度以两种模式工作。当外界温度低于目标温度时,提供与加热方式相关的指令;否则,它将切换到冷却模式。下面的示例演示了与加热模式相关的说明。
    • 当前外部温度低于目标温度。为了优化暖通空调控制,请遵循以下指导方针:
      • 1. 动作应该表示为一个列表,每个整数值的范围从0到100。
      • 2. 动作列表的长度应该与房间的数量相对应,以相同的顺序排列。
      • 3. 如果室温高于目标温度,则室温与目标温度的差值越大,则动作应越低。(后续进行消融试验)
      • 4. 如果室温低于目标温度,则室温与目标温度之差越大,则应采取越高的动作。(后续进行消融试验)
  • stateTranslator
    • 当前状态转换器接受现有的数值状态向量作为输入,并将其转换为自然语言表示。除了室温之外,我们还在文本中详细说明了最后四个维度,并附带了强调目标温度的额外行。为了使LLM能够更有效地理解数值,我们将所有实数四舍五入到最接近的整数值。这会导致舍入误差。我们在舍入误差和LLM的理解之间取得平衡。这是一种操纵LLM的技术。实验结果将证明,这可以显著提高GPT-4的性能。
    • 例:当提供描述由四个房间组成的建筑物的状态时,温度分别为21、20、23和19摄氏度,描述:
      • 这座建筑总共有4个房间。
      • 目前各房间温度如下:
        • 房间1:21摄氏度
        • 房间2:20摄氏度
        • 房间3:23摄氏度
        • 房间4:19摄氏度
      • 外部气候条件如下:
        • 室外温度:-17摄氏度。
        • 全球水平辐照度:0
        • 地面温度:0摄氏度
        • 使用功率:0 KW
        • 目标温度:22摄氏度
  • actionTranslator
    • 动作转换器将原始动作转换为范围从-100到100的整数。与状态转换器类似,这种转换有助于更好地理解LLM的数值动作。
    • 例:原始动作为[0.95,0.9,0.72,0.68] 描述:动作:[95,90,72,68]
  • feedbackTranslator
    • 为了增强LLM的决策过程,我们引入了一个反馈转换器,将环境中的结果(奖励和下一步状态)转换为有意义的自然语言评论。这使得LLM能够评估给定示例的性能,使其不仅可以从成功的控制中学习,还可以从不利的控制中学习。
    • 例:有一场景,其中第一行表示行动获得的步骤奖励(在乘以10后四舍五入到最接近的整数)。接下来的几行描述了执行操作后的房间温度,并附有注释,指出这些温度与目标温度的比较。描述
      • 奖励:8
      • 动作:[90,92,76,97]
      • 点评:采取上述措施后,各房间温度为:
        • 房间1:23摄氏度
        • 房间2:22摄氏度
        • 房间3:20摄氏度
        • 房间4:24摄氏度
      • 当1号房间的温度高于目标温度时,对应1号房间的动作action应降低。
      • 当3号房间的温度低于目标温度时,对应3号房间的动作action应降低。
      • 当4号房间的温度高于目标温度时,对应4号房间的动作action应降低。(The action for Room 4 shall be decreased as its temperature is higher than the target temperature.).
  • Embedding Model
    • 嵌入模型用于将自然语言表示转换为嵌入,同时尽可能地保留语义。这些嵌入被用作存储和检索原始状态及其相关操作和结果的键。在我们的实验中,我们使用通用句子编码器作为我们嵌入模型的基础,其嵌入大小为512。(论文:Universal sentence encoder. Cer, D)
  • Expert demonstrations Dataset
    • 专家演示数据集包括从专家策略中收集的元组。数据集中的演示可能来自于不同于被控制的建筑物和天气条件。这种方法旨在鼓励LLM学习暖通空调控制的基本原理,而不仅仅是复制专家的行为。在我们的实验中,我们为每个环境预训练了一个近端策略优化(PPO) (Schulman et al., 2017)策略,随后将训练好的PPO策略作为专家策略执行100,000步,以收集专家演示。(论文: Proximal policy optimization algorithms. Schulman, J)
  • KNN model(分类)
    • k近邻(KNN)模型旨在识别专家演示数据集中特定数量的相似状态。我们采用scikit-learn库中的“NearestNeighbors”算法作为基础模型。用于检索相似状态的键来自嵌入模型,这是通过连接meta translater和stateTranslator的输出来实现的。
  • Clustering Model
    • 聚类模型旨在识别专家演示数据集中特定数量的不同状态。我们使用scikitlearn库中的“K-means”算法(Buitinck et al., 2013)进行聚类。与KNN模型类似,演示的嵌入表示被用作输入。
  • Prompt Generator
    • 最后,结合上述所有组件在生成提示。在图2中,我们演示了在我们的方法中生成提示的整个过程,其中紫色的文本仅用于说明,而不是提示的一部分。

4 试验介绍

实验在本节中,我们将展示实验结果,强调GPT-4在控制各种建筑和天气条件下暖通空调设备的有效性。通过提供适当的指导和演示(不一定与目标建筑和天气条件相关),GPT-4可以超越为特定建筑和天气条件量身定制的精心训练的RL政策的性能。此外,我们进行全面的消融研究,以确定每个元素在提示中的贡献。

4.1. 基线

在我们的实验中,我们评估了两种基线方法:模型预测控制(MPC)方法和PPO方法。

模型预测控制(MPC)是一种通过求解每个时间步的优化问题来优化系统控制输入的控制策略。该方法依赖于系统的预测模型,该模型用于预测系统在有限范围内的行为。在每个时间步,优化问题最小化一个成本函数,这是为了在考虑控制输出和系统状态约束的同时,惩罚与期望参考轨迹的偏差。来自最优解的第一个控制输入应用于系统,并且在下一个时间步重复该过程。MPC被广泛应用于各种应用,包括机器人、汽车控制和过程控制,因为它能够处理约束,预测系统行为,并以系统的方式优化控制输入(Rawlings等人,2017)。在我们的实验中,MPC方法被用作oracle/skyline。换句话说,而不是依赖于预测模型,我们允许MPC方法在随后的10个步骤中访问外部温度的真实情况。通过MPC方法得到的结果可以看作是所有算法的上界。

注: 原MPC应对多个的动作进行预测,并得到最终结果。本文中每一次执行动作都能够看到全局,因此每一步都是当前环境最优解。所以说看做是所有算法的上界。

PPO。近端策略优化(PPO)是一种常用的强化学习算法,旨在提高略梯度方法的稳定性和性能。

对于所有的实验结果,我们在给定的政策指导下运行相应的环境240步,对应10天的执行周期。我们用不同的种子在每个场景中运行五轮。在接下来的章节中,我们将报告平均奖励及其标准差。

4.2. 试验设置

在我们的实验中,我们选择了“officememedium”建筑和“CoolDry”天气条件作为我们的目标场景。这是明尼苏达州国际瀑布的典型气候。为了收集专家演示,我们在BEAR中分别训练各种场景的PPO模型(Zhang et al., 2022a)。每种场景由建筑类型(OfficeSmall、officememedium或officellarge)和天气类型(ColdDry、CoolDry、WarmDry或MixedDry)的组合指定。对于每个场景,我们通过1亿个步骤训练PPO模型,并执行训练好的策略来收集20,000个转换,这些转换随后作为候选专家演示数据集。

除了专家演示之外,我们还介绍了另外两种类型的演示,以评估它们对GPT性能的影响。综上所述,我们在实验中使用了以下三种类型的演示。

历史演示:这些演示源自GPT-4与当前评估环境之间先前的相互作用。

代表性演示:为了识别代表性演示,我们采用K-means聚类算法对所有专家演示进行分组。然后选择最接近每个集群中心的代表性演示。值得注意的是,与其他两种类型的演示不同,代表性演示在所有时间步长中保持不变,并且旨在多样化,以便GPT-4可以学习在各种情况下做出决策。

专家演示:这些是从建筑物和天气条件中收集的演示,其配置取决于我们的实验设置,我们将在后面详细说明。

虽然它们的名字看起来很相似,但在我们的实验中考虑的场景却非常不同。在图3和图4中,我们证明了即使在相同的天气条件下,不同的建筑物也对应于独特的专家策略(以每个建筑物的第一个房间为例)。此外,OfficeMedium大楼的同一个房间在不同的天气条件下展示了不同的专家政策。这证实了建筑物和天气条件下的示例具有足够的多样性,从一个场景中收集的专家演示不一定是目标场景的良好演示。这进一步需要llm的推理能力,以便从提供的演示中有效地推断HVAC控制逻辑,而不仅仅是模仿它们。

4.3. GPT-4控制暖通空调的效果如何?

为了评估GPT-4在暖通空调控制中的性能,我们设计了六组具有相似设置的实验,通过访问不同的演示数据集来区分。回想一下,我们的目标场景是带有“CoolDry”的“officememedium”。

    1. 演示仅限于从建筑物为officessmall或officelarge的环境中收集的演示,并且天气条件从ColdDry, WarmDry或MixedDry中选择。这被设计为GPT-4最具挑战性的实验,因为演示数据集不包括来自与目标场景相同的建筑物或天气条件的任何样本。
    2. 除了A组的演示外,我们还将OfficeMedium大楼在ColdDry, WarmDry, or MixedDry天气条件下的演示纳入其中。与A组相比,这个实验的挑战性较小,因为它包括来自同一栋建筑的演示,尽管天气条件不同。
    3. 除了A组使用的演示外,这组实验还可以使用在CoolDry天气条件下从officessmall和officelarge建筑收集的演示。换句话说,我们可以在与目标相同的天气条件下访问演示,但在不同的建筑物中。
    4. 与其他实验相比,这组实验可以获得最广泛的演示。具体来说,我们收集了officessmall,OfficeMedium和officelarge在ColdDry, CoolDry, WarmDry, and MixedDry天气条件下的演示。ALL
    5. 这组实验利用与目标研究相同的建筑和天气条件下收集的最相关的数据。具体来说,我们只在CoolDry天气条件下从officemedia收集数据。
    6. 在这组实验中,我们只关注GPT-4与目标环境之间过去相互作用的演示,不包括任何预先收集的演示。

请记住,我们在给GPT-4的提示中区分了三种类型的演示。对于A-E组的实验,我们依次给GPT-4进行如下演示:

+ 两个历史演示:这些演示对应于GPT-4和目标环境之间最近的两个交互。

+ 两个代表性演示:每个组中使用的演示数据集首先分为两个集群,然后选择最接近这些集群中心的代表性演示,如第4.2节所述。

+ 四个专家演示:通过使用嵌入和KNN模型从提供的演示数据集中选择四个专家演示,如第3节所述

在F组的实验中,GPT-4每一步只有4个历史演示,因为它没有任何专家演示。从上述实验组中可以明显看出,我们的目的是在提供与目标场景不同的相似度演示时评估GPT4的性能。通过这种方法,我们的目标是确定GPT-4是否只是复制演示,还是可以真正从这些演示中学习控制暖通空调设备的原理。

结果如上,结论:A与PPO相比相差很小,GPT-4即便没有见过此环境,也有不凡表现;AD表明D要略好,相同环境有提升;随机采样与精选采样区别很大,采样策略对结果提升。

4.4. 演示有多重要?

评估演示对结果的影响,通过groupA的环境设置(与目标完全不同的房屋与外部环境)配置与GPT-A相同进行测试。

结果如表2所示,其中我们添加了后缀“-A”来表示表示和专家演示来自演示数据集。令人惊讶的是,从表2可以看出,历史示范对GPT-4决策最有效。另一方面,专家演示不断降低GPT-4的性能,甚至比完全没有演示的情况下表现更差。代表性的演示可能会略微提高GPT-4的性能,但前提是提供适当数量的演示。

这些观察结果进一步验证了GPT-4的推理能力,因为它不仅可以从好的演示中学习推理,也可以从有缺陷的演示中学习推理。如图3和图4所示,即使在相同的天气条件下,不同的建筑物也对应于独特的专家策略,这表明一个场景的专家演示可能不适合其他场景。因此,通过向GPT-4提供这些演示可能会误导其决策,这解释了表2中的结果。

专家示例导致的结果说明不令人信服

4.5. 如果我们添加不同类型的注释有多重要?

从模仿学习的研究中汲取灵感(例如,Brown et al., 2019, 2020;Cai等人,2022),我们的目标是使GPT-4不仅可以从精心制作的演示中学习,还可以从有缺陷的演示中学习。

为了实现这一点,我们将注释合并到每个演示中。根据生成这些评论的方法,我们确定了两种不同的类型:

    • /手册:根据第3节中概述的反馈翻译,精心制作评论。
    • 自我注释:注释是由GPT-4自动生成的,它包括在每个提示符的末尾附加以下指令。(文本: 在启动操作之前,建议首先对所提供的所有演示的质量提供反馈,以进一步提高对源自演示的控制逻辑的理解。)

加了自我注释后反而不好,我们推测,这可能是由于在我们的实验中使用的过于简单的指令。作为未来的工作,我们将进一步改进自我评论的指导,例如要求GPT-4对每个演示提供个人评论,并将这些评论作为提示的一部分,如Shinn等人(2023)所述。(Reflexion: an autonomous agent with dynamic

memory and self-reflection)

4.6. 任务描述和说明有多重要?

我们进行了一项消融研究,以评估任务描述和指令的不同部分对GPT-4表现的重要性。我们区分了以下几种文本:任务描述:我们在第3节中介绍了metaTranslator,提供了一个通用的任务描述。任务说明:我们提供任务说明(即第3节介绍的instructionTranslator中的第3项和第4项)。

Description: 你是一名暖通空调管理员,负责管理一栋位于布法罗的中型办公大楼,这里的气候炎热干燥。

Instruction: 如果室温高于目标温度,则室温与目标温度的差值越大,则动作应越低。如果室温低于目标温度,则室温与目标温度之差越大,则应采取越高的动作。

结果:

任务描述可以显著提高GPT-4的性能。

虽然任务指令可以略微提高GPT-4的性能,但当与任务描述结合使用时,它们可能会降低其性能。这可能是由于这两个指令不能充分概括暖通空调控制的复杂性,这可能会在某些情况下误导GPT4的行为。值得注意的是,即使没有任何介绍,GPT-4也可以表现得非常好,通过简单地遵循任务描述并利用嵌入其框架中的领域知识,实现了1.12的平均奖励。这进一步强调了它卓越的推理能力。

4.7. 实际值四舍五入有多重要?

整数有效提升,数字太精确影响GPT-4理解

4.8. GPT-4策略对扰动的健壮性?

每一步,我们从均值为0,标准差为2的正态分布中采样噪声,然后将其添加到原始外部温度中。

5 相关使用LLM的技术

LLM使用的一大限制是无法持续学习,为了更好地定位我们的方法,基于以下维度对现有作品进行分类对当前技术进行分类。

1) 是否利用预训练的LLM;

2) 模型是否能够持续学习;

3) LLM是否更新;

4)是上游(如提示符)还是下游(如值函数)被更新。

根据以下几个方面进行对比:

  • DQ Demand:这方面考虑了每种方法实现良好性能所需的数据质量以及与收集此类数据相关的挑战。
  • Data Efficiency:这方面检查了每种方法利用数据的效率,以确定它们是否可以通过零次或少次学习获得强大的性能。
  • Online Learning:这一标准评估的是一种方法是否具有学习能力,具体来说,是它快速适应最近变化的能力。以暖通空调控制为例,天气条件可能会发生意外变化,理想的策略应该能够迅速适应这些变化,而不会出现明显的延迟。
  • Generalization/Transfer Learning:这个因素评估一个方法在多大程度上可以顺利地应用于不同的场景。例如,在暖通空调控制环境中,我们希望政策能够有效地推广到各种建筑和天气条件,而不会显著影响性能。
  • Performance:这一措施比较了在不同的情况下,相对于现有的算法,每个方法的有效性。
  • Interpretability:此元素检查每种方法可实现的可解释性级别。例如,通过为法学硕士提供适当的提示,基于法学硕士的方法不仅可以产生最终的动作,还可以产生推理过程,使结果更容易被人类理解。对于包含深度神经网络的方法来说,情况并非如此,因为它们的输出通常难以解释。
  • LLMs Accessibility:这种考虑探讨了一种方法是需要访问权重还是只需要访问LLM的API。

重点:

语境学习ICL。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值