山东大学软件学院创新实训-角色疆界（五）

EQCY

已于 2024-06-24 14:44:29 修改

阅读量327

点赞数 3

文章标签：深度学习人工智能

于 2024-06-23 20:00:01 首次发布

本文链接：https://blog.csdn.net/weixin_63089232/article/details/139905144

版权

介绍

本阶段任务为适配、并编写LoRA的训练代码，使得模型训练可引入Low-Rand Adaption技术，以大幅减少训练所需内存空间与训练时间。

问题

使用正常的训练代码，即不适用LoRA进行训练，会导致模型爆显存，这就导致无法进行训练。如下图所示：

可以看出实际所需显存是远超80GiB的。

使用LoRA训练

首先和正常训练一样，我们先通过get_model方法导入预训练模型。

peft_config

编写LoRA所需的peft_config

peft_config = LoraConfig(
            target_modules=r'.*language_model.*\.query_key_value',
            inference_mode=args.inference_mode,
            r=args.lora_r,
            lora_alpha=args.lora_alpha,
            lora_dropout=args.lora_dropout
        )

其中target_modules根据选择的语言模型不同而做出变化，下面是参考表：

TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING = {
    "t5": ["q", "v"],
    "mt5": ["q", "v"],
    "bart": ["q_proj", "v_proj"],
    "gpt2": ["c_attn"],
    "bloom": ["query_key_value"],
    "blip-2": ["q", "v", "q_proj", "v_proj"],
    "opt": ["q_proj", "v_proj"],
    "gptj": ["q_proj", "v_proj"],
    "gpt_neox": ["query_key_value"],
    "gpt_neo": ["q_proj", "v_proj"],
    "bert": ["query", "value"],
    "roberta": ["query", "value"],
    "xlm-roberta": ["query", "value"],
    "electra": ["query", "value"],
    "deberta-v2": ["query_proj", "value_proj"],
    "deberta": ["in_proj"],
    "layoutlm": ["query", "value"],
    "llama": ["q_proj", "v_proj"],
    "chatglm": ["query_key_value"],
    "gpt_bigcode": ["c_attn"],
    "mpt": ["Wqkv"],
    "RefinedWebModel": ["query_key_value"],
    "RefinedWeb": ["query_key_value"],
    "falcon": ["query_key_value"],
    "btlm": ["c_proj", "c_attn"],
    "codegen": ["qkv_proj"],
}

梯度适配

    if args.gradient_checkpointing:
        def make_inputs_require_grad(module, input, output):
            output.requires_grad_(True)
        model.language_model.get_input_embeddings().register_forward_hook(make_inputs_require_grad)
        # model.language_model.apply(
        #     partial(model.language_model._set_gradient_checkpointig, value=True))
        model.gradient_checkpointing_enable()