LoRAHUB:通过动态LoRA组合实现高效的跨任务泛化

大模型在微调时面临着计算效率和内存使用上的挑战。为了克服这些问题,研究者们提出了低秩适应(LoRA)技术,通过在模型的每层中引入可训练的低秩分解矩阵作为适配器模块,以参数高效的方式微调LLMs。

尽管LoRA在提高效率方面取得了进展,但关于LoRA模块的内在模块化和可组合性的研究还相对缺乏,来自Sea AI Lab、华盛顿大学圣路易斯分校和艾伦人工智能研究所的研究人员提出的LoRAHUB的新框架,正是为了探索LoRA模块的这一潜力,通过组合在不同任务上训练的LoRA模块,以适应新任务。

论文链接:https://arxiv.org/pdf/2307.13269

GitHub代码库:github.com/sail-sg/lorahub

Hugging Face模型库:huggingface.co/lorahub

方法

LoRAHUB方法是一种通过动态组合低秩适应(LoRA)模块来提高模型在新任务上的泛化能力的方法。它包括两个主要阶段:COMPOSE阶段ADAPT阶段

图2中展示了LoRAHUB方法的两个阶段。首先,对于N个不同的上游任务,分别训练N个LoRA模块,每个任务对应一个LoRA模块。当面对一个新的任务T′时,例如布尔表达式,使用这个任务的少量示例Q来引导LoraHub学习过程。在COMPOSE阶段,所有可用的LoRA模块被整合成一个单一的集成模块,使用一组系数{​}来实现。每个w_i​是一个可以取正值或负值的标量值,并且这些模块可以以不同的方式组合。在ADAPT阶段,组合后的LoRA模块与基础语言模型M_θ​结合,评估其在新任务T′的少量示例上的性能。然后使用无梯度算法更新系数w,以提高在这些少量示例Q上的性能(例如损失)。经过K次迭代后,将性能最优的LoRA模块应用于基础语言模型M_θ​,得到最终的语言模型。这个模型针对未见任务T′进行了有效调整,之后将被部署且不再更新。

LoRA通过将大型语言模型(LLM)的注意力权重矩阵更新分解为低秩矩阵来有效减少可训练参数的数量。具体而言LoRA将更新后的权重矩阵表示为,其中是可训练的低秩矩阵,秩r显著小于d和k。在这个上下文中,乘积AB定义了LoRA模块m,如前所述。通过利用低秩分解,LoRA大幅减少了在微调期间适应LLM权重所需的可训练参数数量。

COMPOSE阶段,实现了一种逐元素方法来组合LoRA模块。这个过程整合了LoRA模块的相应参数,要求被组合的模块具有相同的秩r以便正确对齐结构。给定​,可以通过以下方式获得组合的LoRA模块 值得注意的是,一次性组合过多的LoRA模块会指数级扩大搜索空间,这可能会破坏LoraHub学习过程的稳定性并阻碍最优性能的实现。为了缓解这个问题,研究者采用随机选择来修剪候选空间,未来可以探索更先进的预筛选算法。

ADAPT阶段的目标是通过修改系数w来提高模型在未见任务示例上的性能。人们可能会考虑使用梯度下降来优化w,遵循标准的反向传播方法。然而,这种方法需要为所有LoRA模块构建一个超网络,类似于可微分架构搜索方法。构建这些超网络需要大量的GPU内存和时间,这是一个挑战。鉴于w由相对较少的参数组成,研究者选择了无梯度方法而不是梯度下降来进行优化。

研究者利用一种黑盒优化技术来找到最优的w。优化过程由交叉熵损失引导,目标是找到最佳的{​}集合,以减少在少量示例Q上的损失L。研究者还引入了L1正则化来惩罚w的绝对值之和,帮助防止获得极端值。因此,LoraHub的最终目标是最小化,其中α是一个超参数。

在无梯度方法方面,研究者利用了Shiwa,这是一种组合优化方法。Shiwa提供了多种算法,并为不同情况选择最合适的优化算法。在接下来的大多数实验设置中,研究者主要采用协方差矩阵自适应进化策略(CMA-ES)。CMA-ES作为一种随机和基于种群的优化算法,提供了解决广泛优化挑战的多功能性。它动态调整由协方差矩阵定义的搜索分布。在每次迭代中,CMA-ES系统地更新这个分布的均值和协方差,以优化目标函数。在应用中,研究者使用这种算法来塑造w的搜索空间。最终,用它来通过评估在未见任务的少量示例上的性能来识别最优的w。

通过上述方法,LoRAHUB能够有效地结合多个LoRA模块,以适应新任务,同时保持了计算效率。这一创新方法为大型语言模型的跨任务泛化提供了新的视角。

想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

实验

实验中使用了FLAN-T5-large作为基础的大型语言模型(LLM),该模型在零样本学习和少样本学习方面表现出色。为了准备LoRA模块,研究者采用了与FLAN-T5相同的近200个不同任务及其指令来训练这些模块。在每次实验中,随机选择了20个LoRA模块作为LoraHub学习的候选模块。

实验使用了Big-Bench Hard (BBH)基准测试来评估模型性能,该基准测试包含来自多个领域的多项选择题,共27个不同的任务,对语言模型来说具有挑战性。所有任务均采用精确匹配(Exact Match, EM)作为评估指标。

为了公平比较,实验中还包括了三种代表性的基于梯度的方法:全参数微调(Full Fine-Tuning, FFT)LoRA调整(LoRA Tuning)IA3微调(IA3 Fine-Tuning)。所有基于梯度的方法在相同的三次运行的5个示例上训练了40个周期。FFT使用3e-5的学习率,而IA3和LoRA使用2e-4的学习率。实验报告了每种方法在训练结束时的测试集上的性能,平均了三次运行的结果,以避免潜在的选择偏差。

表1展示了实验结果,显示了LoRAHUB方法与零样本学习和上下文学习(ICL)相比的优越性。LoRAHUB在大多数任务中一致性地优于零样本学习,尽管在某些任务中性能有所波动。LoRAHUB使用的令牌数量与零样本方法相当,但明显少于ICL。

另外与某些基于梯度的优化方法相比,LoRAHUB方法也展现出了竞争性的性能。例如,与IA3方法相比,LoRAHUB平均提高了3.1%的性能。然而,LoRAHUB在与上游任务显著不同的任务中仍然落后于LoRA调整和全参数微调。

LoRAHUB通过减少推理过程中的令牌数量,有效降低了推理成本。然而,它在ADAPT阶段引入了额外的推理步骤成本,这在ICL方法和LoRAHUB之间引入了一个权衡。对于一次性的临时任务,ICL方法可能更实用。相反,对于重复或类似任务,LoRAHUB成为一个有吸引力的选择,因为它能够有效处理重复任务,同时减少总体费用。

研究者们进一步探讨了LoRAHUB方法的特点,并发现了几个结果。

  • 组合LoRA模块是否超越了单一模块的优势? 通过实验,研究者们发现LoRAHUB的性能通常优于单一LoRA模块检索的性能,表明组合多个LoRA模块可以带来额外的性能提升。
  • 无梯度优化方法的有效性如何? 通过在WikiTableQuestions(WTQ)数据集上的实验,研究者们证明了无梯度优化方法能够有效地识别给定下游任务最合适的LoRA模块。
  • LoRAHUB是否适用于非指令调整模型? 实验表明,即使在没有零样本能力的模型(如T5)上,LoRAHUB学习也能使它们有效地泛化到未见任务。
  • LoRA模块的秩是否影响LoRAHUB学习的性能? 分析表明,对于FLAN-T5,秩的选择对性能影响很小。然而,对于T5,秩仍然有一定的影响。
  • 更多的LoRA模块是否会带来更好的结果? 实验结果表明,增加LoRA模块的数量会增加性能的方差,但同时也提高了最大可实现性能。

另外LoRAHUB在内存使用上也表现出极高的效率,仅使用了大约5GB的内存,远低于全参数微调所需的40GB内存,这突显了其在推理模式下的优势,因为它不需要存储梯度和优化状态。

通过LoRAHUB,研究人员展示了一种新的方法,以提高大型语言模型在新任务上的泛化能力,同时保持了计算效率。这一研究为未来LLMs的发展提供了新的可能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值