【peft】用peft调大模型，加载checkpoint失败，报ValueError: Can‘t find a valid checkpoint at

最新推荐文章于 2025-04-02 21:47:47 发布

耶格尔派**

最新推荐文章于 2025-04-02 21:47:47 发布

阅读量1.9k

点赞数

文章标签： nlp python 自然语言处理

本文链接：https://blog.csdn.net/weixin_43857772/article/details/131936979

版权

文章描述了在使用Peft的Lora训练Bloomz后，尝试从检查点恢复训练遇到的问题。作者通过创建Trainer的子类并重写加载检查点的函数来解决找不到有效检查点的错误。如果模型是PeftModel，代码会尝试加载适配器，否则则使用原始的加载方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

接上文，用peft的lora训练bloomz，训练1轮之后，发现可能不太充分，打算加载检查点继续训练，代码如下：

trainer.train(resume_from_checkpoint = 'checkpoint目录')

然后报错：raise ValueError(f"Can't find a valid checkpoint at {resume_from_checkpoint}")
ValueError: Can't find a valid checkpoint at checkpoint目录

参考Peft Model not resuming from Checkpoint · Issue #24252 · huggingface/transformers · GitHub

就是_load_from_checkpoint有点问题

解决，新建一个Trainer子类，子类里重写了加载检查点的函数，调用时用这个子类来创建trainer对象

from transformers import Trainer
import os
from peft import PeftModel
from transformers.utils import (
    ADAPTER_SAFE_WEIGHTS_NAME,
    ADAPTER_WEIGHTS_NAME,
    is_sagemaker_mp_enabl

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

耶格尔派**

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLMs之Chinese-LLaMA-Alpaca-2：源码解读(run_clm_sft_with_peft.py文件)—模型训练前置工作(参数解析+配置日志)→模型初始化(检测是否存在训练过的che

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

09-17

1942

用于控制模型权重和计算的数据类型，确定计算过程中使用的数据类型，用半精度浮点数float16、Bfloat16或单精度浮点数float32。

《Python基础教程》内容总览篇（持续更新中）

最新发布

weixin_54388827的博客

04-02

1100

参数高效微调方式：BitFit、Prompt Tuning、P-tuning、Prefix-Tuning、ia3

ValueError The passed save_path is not a valid checkpoint

weixin_44172434的博客

10-14

2198

1. 背景在使用tensorflow 1.x版本来跑目标检测算法时，发现在加载官方与训练模型时出现上述错误，上网找了好几种解释，但是都没有成功。分别是：模型的checkpoint路径太长，要改短一点。模型的checkpoint路径不能使用绝对路径，要使用相对路径。但是感觉都没有从本质上把问题讲清楚，随即搜索了一下对应的文件，发现出问题的是在这行代码，如图。因此找了官方的源码，一般来说，只需要填入sess和对应的ckpt路径就能重载训练时的参数用来进行继续训练或者进行数据的预测。但是，此处我

peft库报错：RuntimeError: Error(s) in loading state_dict for PeftModelForCausalLM:

Liu_Jilong的博客

07-08

1772

运行一个开源项目单看报错信息，显然是Base Model和LoRA在Size上不匹配，由于ChatGLM有0.1.0和1.1.0两个版本，项目中训练好并开源的LoRA应该不会有问题，初步判断是ChatGLM版本的问题，但是两个版本都试过了均无效。

PSPNet tensorflow 版本代码测试时总是报 No checkpoint file found

liguandong

02-21

6036

在跑 PSPNet tensorflow版本的源码时，遇到这个问题，看了下代码 inference.py 中只需要更改 SNAPSHOT_DIR 中的地址即可，将预训练的四个文件（选的cityscapes）放到新建的model文件下，但是始终报上面那个错误，最终将生成的四个预训练文件中的 checkpoint.txt 中的 .txt 在pycharm 中去掉即可。 ...

单卡trainer.train（resume_from_checkpoint=True）报错AttributeError: ‘list‘ object has no attribute ‘clone‘

ego_grow的博客

05-23

2018

那么只能进行调试看看这个神秘的new_state了，print()一下发现了它真是一个列表，不过列表里面有一个张量，也就是torch.cuda.random.set_rng_state实际需要的输入了。看报错是因为new_state是一个list，所以不能clone。

LLM-微调：Peft库--get_peft_model()--＞在llm基座模型的基础上注入Lora模块（加载流程）【注入的Lora模块的初始参数是随机初始化的】

u013250861的博客

10-22

1786

【代码】LLM-微调：Peft库--get_peft_model()函数【在llm基座模型的基础上加载Lora模块（Lora模块的初始参数是随机初始化的）】

第十六章：基于开源大模型使用huggingface在deepspeed与accelerator下继承源码权重保存而实现resume与infer

weixin_38252409的博客

06-26

705

本篇文章继续升级使用huggingface来灵活保存相关内容为模型推理使用。我使用llava开源模型对特征提取vit的lora、映射层微调、大语言模型lora训练等相关内容保存，而实现推理与resume功能。基于此，本篇文章会给出llava不同推理需要使用文件内容介绍、 deepspeed训练的resume加载相关内容与如何保存其相关内容等方法。最终，本篇文章升级deepspeed与accelerator方法下自由个性化的相关内容实现resume训练与推理过程。

ValueError: can‘t find ‘adapter config.json‘ at /final-model/adapter config.json‘

printslytherin的博客

11-17

1296

在做LoRA微调中遇到了一个奇葩问题，说在这个路径下找不到这个json文件，感觉在侮辱我的智商。，我这么做了以后解决了问题。

tensorflow 校验Checkpoint失败---教训也是经验

weixin_39056447的博客

01-14

2028

实验背景用了Encoder和 Decoder模型。其中Decoder做了Attention机制，在每步step_per_epoch结束的时候，调用tf.train.checkpoint.save()方法。在训练结束后重新引入模型文件ctpk，结果页面显示如下：实验代码： checkpoint_dir = './model_data0' # 使用restore来加载最新的...

BertTokenizer警告Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. s

亓官劼的博客

03-02

3961

BertTokenizer警告Be aware, overflowing tokens are not returned for the setting you have chosen, i.e. sequence pairs with the ‘longest_first’ truncation strategy. So the returned list will always be empty even if some tokens have been removed. 大家好，我是亓官劼（q

【PyTorch Lightening】load_from_checkpoint报错__init__() missing 1 required positional argument

小张的博客

02-21

927

在初始化LightningModule时在__init__中加上 self.save_hyperparameters() [1]

model checkpoint保存模型出错问题分析

herr_kun的博客

06-19

3266

问题描述： model在训练的时候不断调用 checkpoint 进行模型的报错，但是在调用的时候回报错：TypeError: No conversion path for dtype: dtype(’<U49’)，当设置只保存模型权重的时候又会报错：RuntimeError: Unable to create link (name already exists)，综合应该是H5文件读写的问题问题分析：针对只保存模型权重时的报错：RuntimeError: Unable to create lin

Linux跑模型发现被kill原因

weixin_48592695的博客

08-13

2417

Linux跑模型发现被kill原因

checkpoint-模型保存和加载

kewei chen

03-16

1万+

模型的保存和加载实验介绍训练过模型的小伙伴一定对ckpt这个东西不陌生，下面我们就来看看它的魅力。在模型训练过程中，可以添加检查点（Checkpoint）用于保存模型的参数，以便进行推理及中断后再训练使用。使用场景如下：训练后推理场景模型训练完毕后保存模型的参数，用于推理或预测操作。训练过程中，通过实时验证精度，把精度最高的模型参数保存下来，用于预测操作。再训练场景进行长时间训练任务时，保存训练过程中的Checkpoint文件，防止任务异常退出后从初始状态开始训练。 Fine-tu

【LoRa】【BLOOMZ】用peft训练bloomz保存检查点，保存和加载的权重不一致？？？adapter_model.bin只有4kb？？？

weixin_43857772的博客

07-16

688

能看到检查点中adapter_model.bin只有4kb，这明显什么都没有保存。，训练了1轮后发现，结果没有任何变化，用几个检查点做了测试结果也是没有任何变化。最近用peft的lora对bloomz做训练，参考的。都是解决保存和加载不一致的问题。但最终，我的解决办法是把。有两篇帖子能作为参考。

ValueError: Please specify `target_modules` in `peft_config`

01-04

### 解决方案当遇到 `ValueError: Please specify 'target_modules' in 'peft_config'` 的错误时，这意味着在配置LoRA（Low-Rank Adaptation）模型的过程中未正确设置目标模块参数。为了防止此错误的发生，在定义 `peft_config` 时必须显式指明哪些模块应该应用 LoRA 修改。对于 ChatGLM 进行 LoRA 微调的具体实现方式如下： 1. **创建并调整 PeftConfig 实例** 确保在实例化 `PeftConfig` 类的时候传入了 `target_modules` 参数。这可以通过传递一个列表来完成，该列表包含了希望用作低秩适应的目标层名称字符串[^2]。 ```python from peft import PeftConfig config = PeftConfig( base_model_name_or_path="your_base_model", lora_alpha=8, lora_dropout=0.01, r=4, # rank of the low-rank decomposition target_modules=["q", "v"], # Specify which modules to apply LoRA on. ) ``` 2. **加载预训练模型并与自定义配置关联** 一旦有了适当配置的对象之后，则可以将其应用于所选的基础架构之上，并通过继承自 `BaseTuner` 的特定适配器类 (如 `LoraModel`) 来构建新的可训练实体[^3]。 ```python from transformers import AutoModelForCausalLM base_model = AutoModelForCausalLM.from_pretrained("chatglm-base-model") tuned_model = LoraModel(base_model, config=config, adapter_name="lora_adapter") ``` 上述代码片段展示了如何针对给定的任务和数据集准备一个带有 LoRA 调整机制的聊天机器人模型版本。注意这里假设已经安装好了必要的库并且环境变量都已正确设定好以便能够顺利运行这些命令。