大模型的任务适配

摘要:

       基础大模型是中间件,通常不直接使用,需要适配特定的下游任务。事实上,目前常用的模型适配方法是微调。最近的工作表明,轻量级微调替代方案和基于提示的方法可以实现良好的准确性和效率之间的平衡。展望未来,我们设想了一个更广阔的模型适配视角,超越了仅仅专门化基础模型来执行感兴趣的任务:模型适配将减轻独立基础模型的缺陷或引入约束。这种更广泛的模型适配视角与新的评估协议的需求相吻合,该协议在控制资源的同时,系统地评估模型适配方法和访问要求。

       虽然基础模型为处理多模态信息提供了一个强大的通用引擎,但对于某些应用程序来说,在使用之前调整基础模型是必要的。广义地说,适配过程通过以附加信息调节基础模型来产生适配模型,或者通过在基础模型的输入中添加新数据或提示来启动基础模型,或者通过更新基础模型的一些或全部参数以反映新信息。例如,在文本摘要中,将TL;DR等提示附加到输入文章中,可以通过充当基础模型的任务规范来提高基础模型性能。或者,使用组织内部的特定于领域的数据,微调基础模型的参数,可以通过添加与组织用例相关的信息来提高模型的准确性。在本文中,我们将描述现有的模型适配方法以及决定特定适配程序是否适合特定环境的几个因素。我们还描述了各种用于基础模型适配的用例,包括研究相对充分的设置,如将基础模型专门化到特定的任务或领域,以及更投机的设置,如测试时数据删除和编辑特定输入的模型行为最后,我们提出了未来基础模型适配研究的长远目标。

图 在适配过程中,基础模型被转换为适配模型,以反映更新的信息、期望的行为或部署约束

1. 基础模型的适配方法

       已经提出了许多用于适配基础模型的方法,使得难以决定针对特定问题或计算环境使用哪种适配过程。我们强调了从业者在选择模型适配过程时需要考虑的三个特别重要的因素:

      (1)资源预算(特别是存储和内存);

      2)特定任务的可用数据量;

      3)基础模型梯度的访问程度。

1.1 因素1:资源预算

       对于具有数十亿或数万亿参数的基础模型,微调所有模型参数可能需要过大的内存。此外,对许多任务单独进行微调可能会导致不可接受的存储成本。有许多工作,提出了方法,以减少适配基础模型的存储,我们把这类轻量级的模型适配方法作为低存储适配。通常,该类中的方法会冻结大多数预训练的基础模型参数,只学习相对少量的特定于任务的参数(通过微调一些预训练参数或通过添加新模块),从而减少每个任务的存储开销。这种算法的关键设计决策是要适配的参数的选择。也许最简单的方法是只调整预训练模型的最后一层,而其他作品只调整模型的偏置向量,模型权重张量的低秩残差,或模型参数的掩码

        另一条研究路线是提示,对应于任意参数向量的序列而不是模型词汇表的嵌入,并通过与输入激活的级联来根据这些提示调节基础模型,或者在输入层或者在所有层。

        另一种方法冻结所有模型参数,并在现有模型层之间插入新的MLP模块和可训练参数。虽然这些轻量级模型适配技术似乎在下游任务上权衡了参数效率和性能,但它们有时可以实现与完全微调相当的性能,尽管更新的参数少了1000展示了一个例子,当模型大小增加时,完全微调和轻量级适配之间的性能差距消失。

       我们仍然不确定轻量级模型适配技术如何随着模型大小的增加而扩展。由于GPU内存通常是比磁盘存储更有限的资源,因此低内存适配过程对于基础模型的民主化可能比低存储适配过程更重要。已经提出了各种低内存模型训练技术,这些技术可以直接应用于基于微调的适配过程。然而,一些低内存程序(如梯度检查点)权衡了计算和内存,可能会加剧基础模型的显著能耗

1.2 因素2:数据可用性

       任务专业化主要需要特定任务的标注数据作为训练信号。然而,标注的成本在任务和语言之间差异很大;例如,注释MRI数据需要专业的医学知识,而标记英语文本的情感只需要常识判断。当适配数据丰富时,我们可能会应用传统的微调方法或其轻量级对应方法。在低资源的语言环境中,提示和微调相结合被证明是一个有前途的方向Le ScaoRush表明,一个经过良好调整的提示可以值大约100个训练示例,并且微调一个经过仔细提示的基础模型比微调一个无条件的基础模型更有效。

1.3 因素3:基础模型梯度的使用

       尽管基础模型对一些研究团体有着重要的影响,但对于大规模的基础模型(超过500亿个参数),几乎没有标准化的分布实践。随着我们逐渐意识到滥用基础模型的潜在危害,提供对基础模型所有参数的访问以进行微调可能会导致伦理问题。此外,大多数用户没有足够的计算资源来充分利用其访问权限。例如,对于许多组织和机构来说,基础模型的内存需求可能会妨碍它们的直接微调。因此,未来的基础模型提供者可能会限制对模型的完整参数的访问,而提供替代API访问,如早期的基础模型GPT-3所示。

        在一个极端情况下,如果基础模型提供者仅允许访问模型输出(例如,提示的文本延续、生成的图像或评估图像与文本描述之间对齐的分数),可以使用上下文学习来调整基础模型。上下文学习冻结基础模型参数,并通过调节(通常是自然语言)提示来引导基础模型的输出,提示可能由任务指令或演示组成。为了提高情境学习的性能,需要通过手动搜索或自动化程序仔细设计提示,并在适配数据上进行验证。

       在另一个极端,如果基础模型提供者赠款访问关于模型参数的梯度,则可以应用完全微调,其中更新所有模型参数以提高下游任务的性能。

       作为中间立场,我们可能只获得基础模型输入的梯度访问,这些输入比基础模型参数的维数低得多。在这种情况下,我们可以部署轻量级模型适配技术,它冻结模型参数并为每个任务优化连续前缀或提示。

2. 模型适配的用例

       当模型的期望用例与用于基础模型训练的相对一般的训练目标不同时,模型适配是有用的。最常考虑的是基础模型适用于执行特定任务的情况(例如,文本摘要或来自图像的动物分类),缩小了模型的范围。事实上,本节前面描述的绝大多数现有方法都针对这种情况。然而,其他形式的模型适配也是有用的,例如进行本地模型编辑以纠正特定输入的不期望的预测,或者向训练的基础模型添加隐私约束,这是任务不可知的。在本小节中,我们描述了各种适配用例,最适用于它们的方法,以及解决这些设置的剩余挑战。

2.1 任务专业化

       基础模型适配的最广泛研究的情况是任务专业化,其中基础模型适用于优化特定任务或任务集的性能。例如,专门用于摘要任务将诱导基础模型行为从输入文档中提取关键思想并将其重新组织为简短的摘要句子。各种适配程序已被证明对任务专业化是有效的,与未适配模型的性能相比有显著改善。除了相对广泛研究的设置专门的基础模型,以特定的任务,其他任务不可知的适配问题变得越来越具有挑战性(但同样重要)的基础模型,由于其规模和计算需求。例如,训练基础模型的成本使得随着时间的推移持续训练以使模型的预测与当前事件保持同步特别昂贵。此外,收集用于训练基础模型的大量匿名数据集的挑战使得个人信息泄漏到训练集中的可能性变得不小因此,需要事后有效地从基础模型中删除训练数据的机制。

2.2 时间适配

       理想情况下,基础模型存储的知识,密切代表了世界的状态,独立于模态。然而,世界在不断变化,新的国家元首当选,服装风格改变,社会规范和信仰改变,语言的使用也在演变,这导致了输入分布和目标预测分布的变化,或者两者兼而有之。由于诱导的分布偏移,这种时间偏移提出了一个具有挑战性的统计问题。对于基础模型,时间偏移也提出了一个特别困难的计算问题;由于训练基础模型的计算要求很高,频繁从头开始重新训练可能会带来不可接受的财务或环境影响,或者只是需要太长时间才能成为保持模型最新的可行方法。

       在视觉领域,在中间时间点对未标记数据进行渐进式自我训练可以在很长一段时间内弥合时间偏移,但仍然是一种昂贵的再训练程序。在语言模型的背景下,时间分区的诊断数据集有助于量化大型语言模型过时的速度,这表明,经典的技术,如重新加权训练数据和动态评估,(在生产时用新数据更新模型参数)可以部分缓解但不能完全解决这个问题。在语言模型要建模的时间段上显式地调节语言模型是另一种已经显示出一定前景的技术。解决时间偏移的替代策略是设计基于检索的(半参数)模型,其利用从大型人类可解释数据库检索的附加上下文(例如,维基百科文章)。对于基于检索的模型,适配对应于更新数据库中的各个信息单元(例如,百科全书文章的单个段落),而无需重新训练模型。虽然有希望,但基于检索的方法在训练准确的检索机制和准确地调节检索信息方面仍然存在挑战。我们将在本节后面的持续学习的更一般背景下重新讨论时间适配问题。

2.3 领域专业化

       除了任务专业化之外,通常还需要将基础模型专门化到特定领域(例如法律的文档),而不限制基础模型可以完成的任务的广度。这种专门化导致基础模型训练和适配数据分布之间的不匹配,这可能需要新的模型适配方法来处理。先前的工作已经发现,多样化和一般的预训练数据可能会导致当前适配方法的负迁移。例如,科尔等人表明,微调仅在iNaturalist动物分类数据集上预训练的模型,比微调在iNaturalist沿着750 K其他图像上预训练的模型提供更好的下游性能;类似地,LegalBERT仅在法律文档上进行预训练,比BERT有所改进,其在法律的文档中的文本分类和序列标记的下游任务上在更加多样化的训练集上被训练。领域专门化的一种方法是包括中间适配步骤,其中基础模型继续对来自专门领域的未标记数据进行训练。例如,这种方法显著提高了卫星图像和专业文本主题的下游性能。然而,在某些领域(如法律的文档)中,持续的基础模型训练可能比从头开始重新训练的表现更差。阐明持续训练是否有益于绩效的情景是未来工作的一个重要方向。

2.4 本地模型编辑

       在某些设置中,局部地调整基础模型是有用的,这意味着模型的预测分布应该仅针对单个输入或单个输入周围的局部邻域进行调整,而不改变模型对不相关输入的行为。例如,当基础模型对于特定输入短语和目标语言产生特别有问题的误译时,期望在不影响模型对于不相关短语的行为的情况下校正该误译。过去的工作研究了通过新的预训练目标将近似局部化更新应用于大型神经网络的问题,这些目标可以使用标准梯度下降进行轻松编辑,高阶网络可以预测底层模型的参数编辑。然而,现有的方法在可靠性方面有所不同,它们可以在不损害全局模型性能的情况下执行模型编辑。此外,将这些方法扩展到大规模基础模型并不简单,因为它们的大小和训练目标的计算成本需要计算高阶梯度

2.5 应用约束

       在某些情况下,需要调整基础模型以满足隐私约束。例如,Carlini等人证明了现有的基础模型能够记住训练数据中的敏感信息,并且可以在通过标准API查询时验证这些数据。虽然这种现象需要改进数据管理,但开发适配程序来消除或减少特定数据示例对训练模型的影响将是一种补充解决方案。这方面改进的适配策略(沿着更好的预训练方法)也将使根据《通用数据保护条例》(GDPR)使用基础模型的机构受益,因为该授权赋予用户被遗忘的权利。虽然关于机器非学习主题的研究已经开始受到关注,但该问题尚未针对基础模型进行深入研究。

       此外,在较少策划的互联网数据上训练的基础模型已被证明表现出针对特定群体的有害偏见(例如,性别和种族偏见),并可产生有毒输出。虽然在精心策划的数据集上进一步微调基础模型等策略(潜在的多代)或应用可控生成技术在减轻有害行为方面取得了一些成功,这是一个训练公平和安全基础模型的框架可能需要进一步的研究,在数据收集、训练和适配阶段进行集体努力,并咨询领域专家。

3. 基础模型适配研究的长期目标

       在某种程度上,适配需要将模型的现有知识与新的数据或目标有效整合在一起,适配的自然延伸是持续学习或持续适配。不断调整基础模型的能力是可取的,无论是使模型的知识不断地与世界事件或文化发展保持一致,不断地从全新的领域或模式中添加可用的数据;或者随着社会价值观或法律的演变,不断编辑模型的记忆,以符合隐私或法律约束。然而,持续学习问题通常会诱发灾难性遗忘在神经网络中,旧的任务或数据会随着训练数据分布的变化而迅速遗忘

       我们认为一个基础模型的持续适配是未来基础模型适配研究的一个重大挑战要应对这一挑战,需要缩小相同的基础模型在下述的两类不同数据集上训练收敛后的性能差距,一类数据来自不同任务、领域或时间段的非平稳数据流上连续数据(连续训练),另一类数据则来自汇集混合的i.i.d.数据。为了做到这一点,可能需要在模型结构和训练目标方面进行创新例如,虽然记忆机制长期以来一直被认为是成功持续学习的关键,并且已经显示出基础模型的一些前景,但有效地利用更新的记忆仍然是一个具有挑战性的问题。此外,在基础模型中定位知识以进行有针对性的参数更新的技术或学习这样的更新规则可能有助于防止遗忘,但重复应用此类更新仍然会导致严重遗忘。持续的基础模型适配可能也需要,灾难性遗忘的问题如何在基础模型的尺度上表现出来新理解,以及开发新的元学习技术,以改善从已学习的信息到新设置的正向转移。

       不断地对已部署的基础模型收集经验并进行训练,甚至是用许多不同模型收集的综合经验进行训练,可能会加快基础模型开发的进度,但会产生反馈循环的风险,并侵蚀模型行为和利益相关者价值的一致性尽管面临上述挑战,持续的基础模型适配仍有望更快地响应社会文化价值观的变化,更好地利用现有知识来学习新概念,通过消除从头开始训练的计算负担,减少对环境的影响,增加基础模型的可访问性,并减少由于遗忘而造成的(已学习到的概念)重复学习的程度。

  • 23
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值