在当前的LLM应用开发中,工程师们通常通过使用单一角色或专家视角的方式来处理复杂问题。这种单一视角虽然能够提供一定的专业性,但也经常因为专家视角的局限性带来偏见,影响输出的全面性和可靠性。
尤其是在处理开放性问题时,例如“吃肉道德吗?”单一专家可能仅从伦理学视角出发,而忽略营养学、环境科学等其他重要因素,只能给出片面的结论。这就促使我们需要一种新的方法来整合多角度的观点,提升系统输出的多样性与可信度。
本文详细探讨了一种突破性的多专家Prompt方法,通过模拟多位专家之间的协作决策过程,从而显著提升了LLM在输出可靠性、安全性和实用性上的表现。
核心机制:多元化的决策流程
多专家Prompt的核心思想是将复杂问题的解决过程多元化。为此,研究者们采用了一种基于NGT(名义群体技术,Nominal Group Technique)框架的方法来进行决策,该过程可以概括为两个关键步骤:
1. 专家生成与回答阶段
-
自动生成专家身份:对于每个输入的问题,系统会自动生成三个最适合的专家身份,每个专家代表一种独特的知识领域或解决问题的方式。这些专家身份的生成是基于问题的特性和需求,确保对问题有多角度的理解。
-
独立作答:每个专家会独立对问题进行回答,给出其领域内的见解。独立作答的过程确保了每个专家不会受到其他观点的干扰,从而保留了答案的独立性。
-
简洁的角色描述:专家身份的描述采用简短的一句话,避免冗长的说明。这样的设计提高了生成专家身份的效率,并能更快速地引导模型进入适合的角色。
2. 答案聚合阶段
-
识别共识观点:通过对各个专家的回答进行比较,识别出超过半数专家认同的共识观点,形成一个基本框架。
-
发现分歧点:系统明确记录专家间的分歧,并找出这些分歧的核心原因。这一阶段对于理解问题的多样性有着重要意义。
-
解决冲突:基于已经识别的共识框架,系统对分歧进行合理评判,尝试找到一个可以接受的折中方案,使回答更具包容性。
-
提取独特见解:保留每个专家提出的独特见解,确保系统在最终答案中涵盖不同的思考维度,而不仅仅是达成共识。
-
整合各方观点:将共识、折中解决的分歧和独特见解相结合,形成一个多维度的综合答案。
-
生成综合答案:基于整合后的观点撰写综合答案,保持逻辑的连贯性和结构的合理性。
-
选择最优方案:将每个专家的个体答案与综合答案进行对比,从中选择事实准确性和实用性最优的方案作为最终输出。
技术创新:七步聚合法则
为了更好地聚合多个专家的观点,研究者提出了一个七步聚合法则。该方法通过层层递进的方式处理专家间的共识与分歧,使得最终的答案具有逻辑性、包容性和高质量。
1. 提取共识观点 (S1)
- 通过对专家们的回答进行分析,识别出超过半数专家共同认可的观点。这些观点作为基础共识,构建回答的核心框架。
2. 发现冲突观点 (S2)
- 针对专家之间存在的分歧进行详细分析,明确指出具体的争议点以及各自的立场。这一步的重点在于确保所有的观点和潜在的争议都得到了记录和理解。
3. 解决冲突 (S3)
- 基于前面的共识框架,对每个分歧进行评估,寻找合理的折中方案。解决冲突的过程不仅有助于平衡各个专家的意见,还能通过妥协和融合得到更全面的视角。
4. 提取独特见解 (S4)
- 提取每个专家的独特见解,尤其是那些没有被纳入共识和冲突中的部分。这些独特见解保证了回答的多样性,使模型不会因为过度妥协而失去创新性。
5. 汇总关键观点 (S5)
- 将共识、解决后的分歧和独特见解汇总,形成一个较为完整且具有层次的观点体系,确保最终回答涵盖各个方面的重要信息。
6. 生成综合答案 (S6)
- 基于汇总的结果撰写综合答案,确保答案具有逻辑上的连贯性和表达上的一致性。这一步的核心是通过语言生成技术将各部分信息有机地结合在一起。
7. 最优答案选择 (S7)
- 最后,将综合答案与个体专家的答案进行对比,基于事实准确性、信息丰富性和实用性等标准选择最终的输出。这一选择过程有助于确保模型给出的答案是最优的。
实验验证:显著提升输出质量
为了验证多专家Prompt的有效性,研究团队在多个关键指标上进行了严格测试。以下是实验的具体结果和细节:
-
真实性提升:
-
在使用ChatGPT时,采用多专家Prompt的系统相较于最佳基线模型,输出的真实性提升了8.69%。
-
在TruthfulQA测试中,系统达到了89.35%的真实性得分,远超其他方法(例如,ExpertPrompting的得分为80.66%),并创造了新的SOTA记录。这表明多专家Prompt在处理涉及真实世界事实的问题时能够显著减少错误回答的发生。
-
多专家Prompt的有效性通过统计检验得到了验证,p值小于0.01,表明这种提升具有统计显著性。
-
事实性增强:
-
在FactualityPrompt测试中,多专家Prompt显著降低了虚假实体的错误率,其在生成包含不真实名词或虚构概念的几率上表现显著优于其他方法。具体而言,多专家Prompt的虚假实体错误率为4.54%,而传统的ExpertPrompting则为5.64%。
-
在非事实性内容的识别中,多专家Prompt的错误率为9.45%,相较于零样本基线模型的12.9%有显著改善。通过不同专家的交叉验证,模型有效避免了在回答专业知识问题时发生的明显错误。
-
安全性改进:
-
在BOLD测试集中,多专家Prompt生成的有害内容为0%,完全消除了生成有害内容的风险。而ExpertPrompting在同一测试集中,有害内容生成率为0.129%。多专家机制通过引入多样化的视角,对内容进行严格筛选,确保了输出的安全性。
-
在HONEST测试中,多专家Prompt在社会敏感性话题上的表现尤其突出,其伤害性内容的生成率降至0.003%,而基线模型的伤害性内容生成率为0.004%。通过引入多个不同视角的专家,模型在输出上变得更加公正和平衡,减少了偏见的风险。
-
信息量提升:
-
在ExpertQA测试中,多专家Prompt在75%的用例中生成了更丰富和全面的答案,超过了其他所有基线模型。尤其是在复杂问题上,多专家Prompt的平均信息丰富性得分为76.5%,相较于基线模型的60%至70%有显著提升。
-
通过对比分析发现,多专家Prompt的输出包含了更多的多维度见解。在包含528个问题的ExpertQA数据集中,多专家Prompt的答案在内容深度和覆盖面上显著高于其他方法。例如,ChatGPT在执行多专家Prompt时,生成的答案平均包含62.15个token,相较于基线模型的46.88个token(如ExpertPrompting)显示出更高的信息量。
-
实验结论:
-
通过实验结果的细化分析,我们发现多专家Prompt机制能够在多个维度上显著提升大型语言模型的输出质量,尤其是在真实性、事实性、安全性和信息丰富性方面。与零样本、专家提示等传统方法相比,多专家Prompt通过不同专家的协同和观点的聚合,极大地减少了错误和偏见的产生。
-
实验还显示,三个专家是最优的专家数量配置。相比之下,使用五个或更多专家时,系统的性能开始下降。这表明,适度的专家数量有助于最大化多视角的优势,而过多的专家则可能导致过度复杂性和协调困难。
-
我们的实验通过多项指标验证了多专家Prompt的显著优势,进一步证明了群体智慧和多元化决策机制在大型语言模型中的有效性。
为什么多专家Prompt更有效?
1. 短描述胜过长描述
- 实验结果显示,专家角色的简短描述往往比冗长的详细描述更有效。一句话的描述足以激发模型的特定角色行为,从而提高效率,同时避免因信息过多而分散注意力。
2. 多元化决策的优势
-
多专家Prompt通过交叉验证的方法提高了回答的准确性。多个专家的观点互相印证,减少了偏差和错误的概率。
-
多元化的决策不仅提高了答案的可信度,也有效降低了某个单一专家带来偏见的风险,提升了整体的公平性和客观性。
3. 最佳专家数量
- 研究表明,3位专家是多专家Prompt中表现最佳的数量。这个数量在保证足够视角多样性的同时,避免了专家过多带来的协调困难和输出混乱。
Prompt工程师应该注意什么?
1. 角色设计原则
-
在设计多专家Prompt时,应确保专家背景互补,尽量覆盖不同的知识领域和视角。
-
避免选择过于相似的专家组合,以免造成信息冗余,影响答案的丰富性。
2. 提示词优化策略
-
使用简短、清晰的角色描述来指导专家模型的生成,确保每个角色的独立性和清晰度。
-
强调每位专家的独特视角,以增加答案的多样性。
3. 答案聚合技巧
-
在答案的聚合过程中,严格遵循七步聚合流程,确保每一步的信息处理都能够提升最终答案的质量。
-
特别重视冲突解决环节,通过合理的折中方案增强回答的全面性。
4. 系统集成建议
-
模块化地实现每个步骤,将专家生成、独立回答和答案聚合分离处理,这样可以更好地理解和优化每个部分。
-
保持整体流程的可解释性,使得用户能够理解每一步骤的具体作用,增加系统的透明度和用户信任度。
局限性与未来展望
尽管多专家Prompt展现出了显著的优势,但其应用依然面临一些局限性。
1. 应用场景限制
-
多专家Prompt在简单的是非题或直接的事实检索类任务中表现出一定的局限性,因为这些问题不需要多视角的复杂分析。
-
在短答案生成任务中,其表现不如长答案生成任务,因为多专家视角更适合深度分析和多角度综合。
2. 模型能力要求
-
多专家Prompt要求模型具备较强的角色扮演能力。对于一些基础模型,可能无法有效实现多角色之间的差异化。
-
需要模型具备更高的指令理解和执行能力,尤其是在多步聚合和冲突解决过程中。
3. 发展方向
-
动态专家权重调整:未来可以探索根据任务的复杂性动态调整专家的权重,使得系统能够更灵活地分配专家的重要性。
-
更高效的聚合算法:研究如何以更少的计算开销实现更高效的专家观点聚合,从而提升系统的实时性。
-
特定领域的专家模板:为一些特定领域开发专门的专家模板,增强系统在特定应用场景中的表现能力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。