个人LLM智体的综述

硅谷秋水

已于 2024-06-09 02:05:39 修改

阅读量620

点赞数 13

分类专栏：大模型智能体文章标签： microsoft 语言模型人工智能自然语言处理机器学习

于 2024-06-09 01:38:23 首次发布

本文链接：https://blog.csdn.net/yorkhunter/article/details/139553647

版权

大模型同时被 2 个专栏收录

306 篇文章 1 订阅

订阅专栏

智能体

82 篇文章 0 订阅

订阅专栏

24年1月来自国内清华大学、小米、华为、深圳欢太、vivo、云米、理想汽车、北邮和苏州大学的综述“personal LLM agents: insights and survey about the capability, efficiency and security“。

自个人计算设备出现以来，智能个人助理（IPA）一直是研究人员和工程师关注的关键技术之一，旨在帮助用户高效获取信息和执行任务，为用户提供更智能、更方便、更丰富的交互体验。随着智能手机和物联网的发展，计算和传感设备变得无处不在，极大地拓展了智能个人助理的功能边界。然而，由于缺乏用户意图理解、任务规划、工具使用和个人数据管理等能力，现有的智能个人助理的实用性和可扩展性仍然有限。

近年来，以大语言模型（LLM）为代表的基础模型出现，为智能个人助理的发展带来了新的机遇。LLM具有强大的语义理解和推理能力，可以使智能智体自主解决复杂问题。本文重点关注个人LLM智体，这是一种基于LLM的智体，与个人数据和个人设备深度集成，用于个人帮助。设想在即将到来的时代，个人LLM智体将成为最终用户的主要软件模式。为了实现这一愿景，首先讨论有关个人LLM智体的几个重要问题，包括其架构、功能、效率和安全性。首先总结了个人LLM智体体系结构中的关键组件和设计选择，然后深入分析了从域专家那里收集的意见。接下来，将讨论实现智能、高效和安全的个人LLM智体的几个关键挑战，然后对解决这些挑战的代表性解决方案进行全面调查。

作为一种独特类型的智能智体，智能个人助理（IPA）也有可能被LLM彻底改变，显著增强可扩展性、能力和有用性。这种LLM驱动的智能个人助理称为个人LLM智体。与普通LLM智体相比，个人LLM智体更深入地参与个人数据和移动设备，并且更明确地设计用于帮助人们，而不是取代人们。具体而言，帮助用户的主要方法是减少日常生活中重复、乏味和低价值的劳动，让用户专注于更有趣、更有价值的事情，从而提高工作和生活的效率和质量。个人LLM智体可以建立在现有的软件堆栈（例如，移动应用程序、网站等）上，同时通过无处不在的智能自动化能力带来令人耳目一新的用户体验。因此，预计个人LLM智体将成为人工智能时代个人计算设备的主要软件范式，如图所示。

在这里插入图片描述
智能个人助理（IPA）有着悠久的发展历史。下图中描绘了IPA历史的大致时间表。开发过程可分为四个阶段，每个阶段都用独特的颜色标记在图中。
添加图片注释，不超过 140 字（可选）
第一阶段从20世纪50年代到80年代末，主要是语音识别技术的发展。语音识别的早期阶段是从基本的数字和单词开始的。贝尔实验室开发了“Audrey”，它可以识别数字0-9，准确率约为90%。1962年，IBM高级系统开发部实验室推出了“shoebox”[8]系统，该系统能够识别多达16个单词。从1971年到1976年，由美国国防部资助的语音理解研究项目显著提高了语音识别技术。Harpy系统[9]尤其具有代表性，因为它可以理解由1011个单词组成的句子，相当于一个三岁孩子的熟练程度。1986年，IBM开发了Tangora语音识别打字系统[10]，能够识别20000个单词，并提供预测和纠错功能。Tangora系统利用了隐马尔可夫模型[11]，需要对单个说话者进行语音识别训练，每个单词之间都有停顿。

第二阶段涵盖了从20世纪90年代到21世纪末的这段时间，因为语音识别开始集成到用于某些高级功能的软件中。1990年，“Dragon Dictate”软件[12]发布，这是第一款面向消费者的语音识别产品。它最初设计用于Microsoft Windows，支持离散语音识别。“Speakable items”[13]由苹果公司于1993年推出，使用户能够用自然的语言控制电脑。1996年，IBM为放射科医生推出“MedSpeak”[14]，这也是第一个支持连续语音识别的商业产品。微软于2002年将语音识别集成到Office应用程序中[15]，谷歌于2008年在iPhone上的谷歌移动应用程序中添加了语音搜索[16]。

第三阶段从2010年代初开始。在这一时期，一直在线的虚拟助理服务开始出现在智能手机和个人电脑等移动设备上。Siri[1]被广泛认为是第一款安装在现代智能手机上的智能个人助理，2011年被集成到苹果的iPhone 4S中。自推出以来，Siri一直是苹果设备的关键内置软件，包括iPhone、iPad、Apple Watch、HomePod和Mac，并不断进行更新和迭代，融入新功能。与Siri类似，许多其他虚拟智能助理也在这一时期开始出现。2014年，微软发布了Cortana[17]，并逐步将其集成到台式机等平台中。亚马逊在同年发布了Alexa[3]，它可以完成语音交互、音乐播放、设置警报等任务。除了语音搜索，谷歌助手[2]于2016年推出，支持用户通过语音和键盘输入进行交互。

第四阶段最近开始，LLM开始引起世界各地的关注。基于LLM，出现了许多智能聊天机器人（例如，ChatGPT[18]），以及一些安装在个人设备上LLM驱动的IPA软件（例如，Copilot[19]）。

大多数商业IPA产品通过基于模板的方法支持任务自动化。在这些方法中，可以自动化的功能被预定义为模板，每个模板通常包含任务描述、相关操作、要匹配的示例查询、支持的参数到完整文件等。给定用户命令，智体首先将命令映射到最相关的模板，然后按照预定义的步骤完成任务。工作流程如图所示。
添加图片注释，不超过 140 字（可选）
近年来，以大语言模型（LLM）为代表的预训练大型基础模型得到了快速发展，为个人助理带来了新的机遇。

语言模型的规模化定律[42]揭示了增加模型参数对提高模型性能的重要性，其次是一组具有数十亿参数的模型。LLM通常以无监督的方式使用大规模开放域文本数据进行训练，然后进行指令微调[43]和人类反馈强化学习（RLHF）[44，43]，提高性能和一致性。OpenAI于2022年底推出的ChatGPT[18]是LLM的一个里程碑，展示了惊人的问答能力。通过将简单的任务描述作为输入提示输入到LLM中，LLM的任务和响应可以很容易地进行自定义。此外，这些模型还展示了在各种语言理解和推理任务中强大的泛化能力。ChatGPT本身可以被视为一种智能个人助理，在文本响应中返回信息来帮助用户。

受LLM能力的启发，研究人员试图让LLM自主使用工具[45]来完成复杂的任务。例如，例如控制用于信息检索和摘要的浏览器[46，47]，调用用于机器人行为控制的机器人编程接口[48，49，50]，以及调用用于复杂数据处理的代码解释器[51，52，53，54]等。将这些功能集成到智能个人助理中是一个自然的想法，从而实现更智能的方式来操作个人数据、个人设备和个性化服务。

已经有一些商业产品尝试将LLM与智能个人助理（IPA）集成。例如，微软的Copilot系统[19]集成了GPT-4[55]的功能，帮助Windows用户自动起草文档、创建演示文稿、总结电子邮件，从而提高了用户的工作效率。新必应[56]还改善了上网体验，提供了一个强大高效的搜索引擎，可以更好地了解用户的需求。同样，谷歌将LLM（Bard[57]，Gemini[58]）集成到搜索引擎中，以实现更方便的网络搜索体验。包括华为、小米、Oppo、Vivo在内的智能手机公司也将大模型（PanGu[59]、MiLM[60]等）集成到其设备IPA产品中。值得注意的是，其中的一些采用了基于本地部署的轻量级LLM解决方案。到目前为止，这些商业产品大多只是将LLM的聊天界面简单地集成到个人助理中。

尽管显示出巨大的潜力，但这一研究方向目前仍处于早期探索阶段。距离真正理解并用智能智体帮助用户的最终目标还有相当大的距离。此外，许多与效率、安全和隐私相关的问题还没有得到充分解决。

见证了基于LLM的智能个人助理的巨大潜力以及学术界和工业界的广泛兴趣，需要系统地讨论了与该方向相关的机遇、挑战和技术。

个人LLM智体定义为一种特殊类型的基于LLM智体，它与个人数据、个人设备和个人服务深度集成。个人LLM智体的主要目的是帮助最终用户，帮助减少重复和繁琐的工作，并更多地关注有趣和重要的事务。根据这一定义，通用的自动化方法（提示、规划、自我反思等）类似于基于LLM的普通智体。专注于与“个人”部分相关的方面，如个人数据的管理、智能手机应用程序的使用、资源受限的个人设备的部署等。

个人LLM智体将成为LLM时代个人设备的主要软件范例。然而，个人LLM智体的软件堆栈和生态系统仍处于非常早期的阶段。许多与系统设计和实施相关的重要问题尚不清楚。

因此，试图根据从域专家那里收集的见解来解决一些问题。具体而言，邀请来自8家领先公司的25位专家，他们是首席架构师、董事总经理或高级工程师/研究人员，这些公司正在开发IPA相关产品，包括智能手机个人助理、智能家居解决方案和智能驾驶舱系统。随意地与他们讨论个人LLM智体的主题，并问他们几个常见的问题，从应用程序场景到部署挑战。根据讨论和收集的答案，将见解总结为三个子部分，包括个人LLM智体的关键组成部分、智力水平分类以及专家对常见问题的意见。

基于对个人LLM智体所需功能的讨论，首先总结支持这些功能的主要组件，如图所示。
添加图片注释，不超过 140 字（可选）

毫无疑问，个人LLM智体的核心是一个基础模型（大语言模型或其他变型，为了简单起见，称之为LLM），它连接了所有其他组件。首先，LLM是支持为用户服务的不同技能的基础，包括根据用户要求直接执行任务的响应技能（如问题回答、天气检查、事件调度等），以及在没有明确用户命令的情况下提供服务的主动技能（如生活日志、管理用户注意力、活动推荐等）。

其次，为了支持这些技能，LLM管理各种本地资源，包括移动应用程序、传感器和物联网设备。例如，智体可以通过与智能手机天气应用程序交互来完成天气检查。同时，许多人提到个人LLM智体提供个性化和上下文感知服务的重要性。因此，LLM应维护有关用户的信息，包括当前用户上下文（状态、活动、位置等）和历史用户记忆（档案、日志、个性等）。为了操作这些资源、上下文和记忆，还希望将矢量数据库等专用管理系统与LLM结合使用。

个人LLM智体所需的特征需要不同类型的功能。受自动驾驶六个级别的启发，将个人LLM智体的智能级别分为五个级别，表示为L1到L5，如图所示。
添加图片注释，不超过 140 字（可选）

另外下表列出了每个级别的关键特性和代表性用例。
添加图片注释，不超过 140 字（可选）
在每个级别上，用户和智体负责不同的职责。在级别1（简单步骤跟随）中，智体只负责步骤执行，其他职责由用户负责。例如，当用户发出命令时，智体会按照开发人员定义的或用户给出的明确步骤来完成任务。L1智体不具有任何感测或规划的能力。大多数基于模板的IPA产品都属于这一类。

随着智能水平的提高，智体逐渐承担起更多的职责。在L2，支持的任务仍然是确定性的（即，涉及要完成的固定动作序列），但执行每个任务的详细步骤不再明确给出。智体必须根据用户的任务描述自动完成必要的步骤。例如，给定用户查询“今天北京的天气如何”，智体以“北京”为参数调用天气API，并从响应中检索天气信息。与L2级的确定性任务不同，L3级的智体可以完成更复杂的任务，这些任务需要战略规划和自我反思。例如，命令“告诉Alice我明天的日程安排”，需要智体确定如何收集日程信息（例如，用户的日历和聊天历史记录）以及如何通知Alice有关信息（例如总结日历事件并通过messenger应用程序发送）。在这些任务中，智体基于中间反馈自主迭代地生成并执行执行规划，直到完成任务。

L1-L3级的智体在用户命令的被动驱动下工作，而L4级的智体可以了解用户的历史数据，感知当前情况，并在适当的时候主动提供个性化服务。

在L5级超智能的情况下，智体扮演一个数字人物角色，可以完全代表用户完成复杂的事务，因此用户只需要专注于创造力和情感。智体不仅可以感知当前的状态，还可以预测用户未来的活动并采取行动为其提供便利。除了直接为用户服务外，数字人还可以与其他智体合作，减轻用户的通信负担。此外，L5级智体应该能够通过自我进化不断提高自己。

下表是向域专家提出的常见问题。在问题1至6中，给出几个常见的选项供专家选择/确定优先级，同时也允许专家给出自由形式的答案。在问题7和问题8中，专家们被要求用文字回答。
添加图片注释，不超过 140 字（可选）
意见1（在哪里部署LLM）：首选边缘云（本地-远程）协作部署LLM，而现有的部署仅云（仅远程）（例如，ChatGPT）不是一个广泛接受的解决方案。如图所示，88%的参与者更喜欢边缘云协同架构，58.33%的参与者支持本地部署，81.82%的参与者对现有的纯云解决方案不满意。他们主要担心的是1）远程LLM服务的高延迟，2）将个人数据传输到云端的隐私问题，以及3）基于云的LLM服务成本高昂。

意见2（如何定制智体）：将微调和上下文学习相结合是实现定制的最可接受的方式。在个人LLM智体中，有必要为不同的用户和场景自定义智体。如图显示，66.67%的参与者支持结合微调和上下文学习的优势来实现个性化（L4智能）。43.75%的人不认为L4可以通过情境学习来实现；一个可能的原因是，参与者来自行业，因此他们更关注特定垂直领域的LLM，而这些领域的上下文学习并没有得到太多关注。
添加图片注释，不超过 140 字（可选）

在问题3-5中，要求参与者对选项进行排名，下面三个表总结了排名。排名1-4表示参与者投票的这些选项的排名；例如，第一个表中的72%意味着72%的参与者将文本列为他们的第一首选模态。每个表格中的“分数”是根据Borda计数[62]计算的，其中每个候选人获得的分数等于他们在每次投票中超过的候选人数量的平均值，排名最低的获得2分，最高的获得n+1分，其中n是候选人总数。例如，第一个表中的4.56等于5×72% + 4×20% + 3×0 + 2×8%。
添加图片注释，不超过 140 字（可选）

意见3（使用什么模态）：多模态LLM，特别是文本和视觉模态，是个人LLM智体所需要的。在统计结果中，文本是最受欢迎的模态，就像使用的最流行的LLM（例如，GPT系列和LLaMA系列）一样。排名第二的图像选项和20%的参与者特别提到的视频模态表明，视觉模态在个人LLM智体的未来发挥着很有希望的作用。

意见4（哪种LLM能力对IPA产品最关键）：语言理解被认为是LLM最重要的能力，而处理长上下文的能力被认为是最不重要的能力。相反，在学术界，处理长上下文的能力被认为是非常重要的，并被广泛研究。这种不同的观点源于我们的参与者假设的特定垂直领域LLM和学术研究人员的通用LLM。在垂直域LLM中，来自用户的查询和任务并不是很多样化，因此长上下文的容量并不是那么关键。
添加图片注释，不超过 140 字（可选）

意见5（如何与智体互动）：基于语音的互动是最流行的方式。不出所料，就像现有的虚拟助理Siri一样，模仿人类的通信方式——语音交互是最常见、最有效的选择。基于文本的聊天机器人和GUI排名第二和第三，因为大多数参与专家都专注于移动设备，如智能手机。虚拟现实只获得1.52分，这是所有问题中最低的；这可能源于VR设备的高价格和当前VR技术的不满意的用户体验。
添加图片注释，不超过 140 字（可选）

意见6（需要开发哪种智体能力）：在个人LLM智体的未来发展中，“更智能、更自主的决策能力”被认为是参与者中最关键的特征；几乎一半的参与者（47.83%）将其排在第一位。“用户体验和交互方式的持续改进”和“个人数据的安全处理”选项也备受关注，分别为36.36%和33.33%，并列第二。尽管“与物联网设备的集成”排名最后，但47.63%的参与者仍然认为它作为个人LLM智体的基础设施很重要。

排除普通LLM智体的一般功能，这里专注于个人助理的三个基本功能，包括任务执行、上下文感知和记忆。任务执行是将用户的命令或主动感知的任务转化为对个人资源的行动。上下文感知的目的是感知用户和环境的当前状态，为任务执行提供全面的信息。记忆是记录用户数据，使智体能够回忆过去的事件、总结知识和自我进化。虽然上下文感知和记忆是与从用户查询信息相关联的能力，但任务执行是指向用户提供服务的能力。如图描述了这些基本能力之间的关系。
添加图片注释，不超过 140 字（可选）

由于许多个人设备上的硬件资源和电源有限，在部署阶段提高个人LLM智体的效率很重要。如图所示，个人LLM智体的基本功能，由更基本的过程支持，主要包括LLM智体的推理、定制和内存检索。
添加图片注释，不超过 140 字（可选）

LLM的推理是智体各种能力的基础。例如，智体可以首先在LLM的帮助下将复杂任务分解为几个步骤，然后通过LLM推理或调用个人工具（例如，安排会议）来解决每个步骤。感知上下文或生成记忆也可能依赖于LLM的推理能力。虽然由于多样性，使用工具或传感器的成本通常很难估计，但LLM推理是一种常见的过程，需要大量的计算和内存资源。因此，LLM推理成为个人LLM智体的性能瓶颈，需要对其效率进行仔细优化。

定制是个人LLM智体适应不同用户需求的另一个重要过程。当智体安装到不同的用户或在不同的场景中使用时，需要进行自定义。个人LLM智体的自我进化也是一个定制的过程。为了提供定制的服务，智体可以向LLM提供不同的上下文tokens，也可以用特定于域的数据对LLM进行调整。由于频繁的定制需求，这些过程可能会给系统的计算和存储资源带来相当大的压力。

内存操作是另一个代价高昂的过程。为了提供更好的服务，智体可能需要访问更长的上下文或外部存储器，例如环境感知、用户配置文件、交互历史、数据文件等。因此，这引起了两个考虑因素。第一个涉及LLM处理较长输入的必要性。第二个问题围绕着从外部存储器库管理和获取信息。

提升LLM智体每个组件的效率，其方法分类如图所示。
添加图片注释，不超过 140 字（可选）

由于个人LLM智体的运行时成本主要由LLM推理决定，因此提高推理效率以提高智体的整体效率非常重要。尽管总推理成本可能会受到智体设计的显著影响，包括智体如何向LLM发送请求、使用什么提示等，但作者只关注模型和系统级别的方法。原因是智体的设计可能会因实际应用而异，并且不会直接提高LLM推理本身的效率。

已经提出了许多模型和系统级的方法来提高LLM推理的效率。虽然其中一些技术对整体性能和效率是通用的（例如，模型压缩），但也有一些技术针对特定视角下的效率，如模型大小、推理延迟、内存消耗、功耗等。

LLM与传统的非Transformer模型不同的一个主要特征是注意机制[31]。由于注意的计算成本随着上下文长度的增加接近二次方，因此提高长上下文推理的计算效率尤为重要。现有的工作已经探索减少上下文长度并优化注意核以更好地支持长上下文推理。

KV Cache是移动（例如，llama.cpp[273]和mlc-llm[274]）和云llm服务框架（例如，DeepSpeed[278]和vLLM[279]）中广泛采用的技术，以避免llm推理中的冗余计算。具体而言，KV Cache涉及在每个token的生成中存储（即“缓存”）和增量更新K-V对，它们是注意计算的中间结果。因此，避免KV计算中的重复部分，降低计算成本。然而，在长上下文推理中，尽管跳过KV计算，但注意的计算成本仍然是系统的瓶颈，因此在这种情况下压缩上下文长度至关重要。

上下文压缩方法减少上下文（尤其是KV缓存）的长度来提高推理效率。权重和激活（包括KV缓存）的联合量化是压缩KV缓存的直观方法。除了量化，上下文裁剪还去除了上下文中不太重要的tokens，降低计算成本。该方法的有效性是基于观察的token对最终输出有不同的影响，删除不太重要的tokens不会导致模型能力的显著下降[233，280，234]。一个典型的工作是在预填充阶段基于token的不同重要性来压缩上下文[230231232]。然而，这些方法是单样本学习，当上下文长度在token生成过程中不断增长时，无法修剪KV缓存。为了解决这一问题，动态上下文修剪[233]使用可学习的机制来连续确定和丢弃无信息的tokens。虽然可学习机制引入了微调开销，但Zhang[234]提出了一种无需微调即可应用的token驱逐策略。

受token并不同等重要这一观察结果的启发，其他工作也探索了减少不太重要tokens的计算，而不是直接删除它们。COLT5[281]采用了一种条件计算机制，该机制将更多的资源用于FFN和注意中的重要tokens。SkipDecode[282]设计了一种tokens级早期退出方法，该方法与批处理推理和KV缓存无缝配合，在tokens不太重要时，跳过计算图中的一些算子。

核优化是LLM推理加速的另一种方法。对于包括本地部署的个人LLM智体在内的边缘场景，小批量或单批量推理的优化尤为重要。已有研究表明，当序列长度较长时，注意计算会成为瓶颈，因为注意的复杂度随序列长度呈二次方变化，而FFN的复杂度则呈线性变化。因此，包括Flash Attention[235，236]和Flash Decoding++[237]在内的高效注意核已被提出以提高长文本推理的速度。此外，一些工作从算法方面降低了注意的计算复杂度。例如，Linformer[283]在预填充阶段实现了自注意的线性复杂性。

推测解码[239，238]是小批量推理中提高延迟的有效方法。边缘LLM推理的批量大小小于云LLM的批量大小，通常为1（即单个查询），这使得推理工作负载非常受内存限制。推测解码通过轻量级的“草稿模型”去“猜测”几个后续tokens，然后用大型的“oracle模型”批量验证草稿tokens，从而缓解了这一挑战。Miao[284]，和Spector&Re[285]，通过基于树的验证而不是顺序验证，进一步增强了推测解码，重用这些序列之间共享的中间结果。虽然这些方法确保了生成结果中的零偏差，但BiLD[286]建议，当草案模型无法生成高质量内容时，偶尔只备案或返回到oracle模型。

LLM推理不仅计算密集，而且消耗内存，这给个人LLM智体的部署带来了挑战。因此，有必要对LLM推理的内存效率进行优化。KV缓存和模型权重是造成这种内存开销的两个主要原因。在KV存储所需内存远小于模型权重的短上下文场景中，模型压缩技术非常有效地降低了存储权重所需的内存。然而，在长上下文场景中，KV缓存（其大小随着上下文长度线性增长）将主导总内存消耗。

解决这一问题的有效方法是量化和修剪技术来压缩KV缓存。虽然量化方法是通用的减少KV缓存的内存占用，但并非所有基于修剪的方法都直接有助于提高内存效率。只有那些在上下文中连续删除输入token时修剪KV缓存中相应行/列的方法才能防止KV缓存大小超过内存限制。例如，Anagnostidis[233]和Zhang[234]提出在生成过程中识别和驱逐无信息的tokens。然而，只在预填充阶段修剪上下文tokens的一次性方法在生成场景方面效果较差。

尽管基于压缩的方法被证明能够有效地降低LLM推理的内存需求，但在某些情况下，压缩导致的精度下降是不可忽略的。为了解决这一问题，FlexGen[240]设计了一种卸载策略，充分利用GPU、CPU和磁盘，并结合Z字形调度方案，在受限的GPU内存下支持高通量推理。这种方法与基于压缩的方法正交，因此可以联合使用以进一步减少GPU内存占用。

功率消耗是影响智能个人智体在现实世界中部署的关键因素。能耗智体不仅增加了部署成本和碳容量，而且由于温度升高和潜在的热节流调节，还会损害体验质量（QoE）。虽然LLM的推理涉及昂贵的计算和存储器访问，但优化LLM推理的能量效率是重要的。

由于计算和内存访问（主要是权重加载）是导致大功耗的两个主要原因，因此从软件和硬件的角度对这两个方面进行了广泛的优化。模型压缩方法通过减少模型大小和计算来节省能量；KV缓存通过避免冗余计算来节省能量；高效的注意核还通过内存重用和局部优化来提高能量效率。

除了软件优化之外，利用节能硬件为提高智体系统的效率提供了新的机会。虽然CPU和GPU仍然是在边缘设备上运行LLM推理的主流选项，但它们被设计为支持通用任务，并且没有专门优化基于Transformer的模型，尤其是生成式LLM。研究人员已经探索利用更适合LLM推理工作负载的高效处理器，包括NPU[241]和TPU[242]。然而，有限的运营商和模型支持在现实部署中仍然具有挑战性。此外，现有工作还设计了基于FPGA的解决方案，以提高LLM推理的内存带宽和能效比[243，287]。

个人LLM智体可能需要使用相同的基本LLM为不同的用户、不同的任务和不同的场景提供服务，这需要针对每种情况进行有效的定制。定制LLM的行为主要有两种方法，一种是向LLM提供不同的上下文提示，用于上下文内学习，另一种是使用特定域的数据调整LLM。因此，定制的效率主要取决于上下文加载效率和LLM微调效率。

个人LLM智体需要频繁地检索内部或外部内存，实现更明智的决策。内部存储器表示为上下文tokens，并在LLM推理期间存储为KV缓存。内部内存的检索由Transformer架构中的自注意模块隐式处理。这导致LLM在长上下文中进行更高效的计算，并在进行推理时尝试最小化内存占用。这些问题类似于LLM的推理效率。因此，这里们主要关注处理外部内存的效率，这些内存可以动态检索并添加到上下文中。

考虑到外部内存数据的多种形式，如用户档案、交互历史和本地原始文件（图像、视频等），通常的做法是使用嵌入模型[229，394]以统一的高维矢量格式表示内存数据。向量之间的距离代表对应数据之间的语义相似性。对于每个给定的查询，智体需要在外部内存存储中找到最相关的内容。这一过程以及矢量的维护可以由矢量库（如Faiss[295，296，297]和SCaNN[199]）、矢量数据库[298，299，300]或一些定制的存储器结构[301，302]覆盖。不管这些系统之间的功能差异如何，它们的效率优化基本上针对两个关键方面，即搜索和索引。

敏感个人数据和安全-紧要个人工具的广泛集成，使个人LLM智体与常规LLM智体不同。因此，确保个人LLM智体中的用户数据隐私和服务安全，成为一个关键问题。在个人LLM智体的上下文中，关注三个安全原则，包括机密性、完整性和可靠性，如图所示。

添加图片注释，不超过 140 字（可选）

保密性代表对用户数据隐私的保护，确保在用户与智体交互期间不会发生不必要和未经授权的敏感信息披露。完整性代表智体决策的弹性，确保智体执行的行为与预期行为一致，且未被恶意方故意修改或影响。可靠性侧重于使智体的行为更加可靠和真实。与诚信不同，在诚信中，错误的答案是故意的外部操纵的结果，可靠性解决了智体的内部错误。

硅谷秋水

关注

13
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
个人LLM智体的综述

24年1月来自国内清华大学、小米、华为、深圳欢太、vivo、云米、理想汽车、北邮和苏州大学的综述“personal LLM agents: insights and survey about the capability, efficiency and security“。
复制链接

扫一扫