AttributeError: ‘BaiChuanTokenizer‘ object has no attribute ‘sp_model‘ HuatuoGPT的下载&错误处理

cube____

于 2024-05-16 12:05:11 发布

阅读量240

点赞数 9

分类专栏：实战bug 文章标签：自然语言处理 bug nlp

本文链接：https://blog.csdn.net/weixin_50761068/article/details/138955024

版权

实战bug 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在从Huggingface下载国人做的医学大模型“HuatuoGPT”时，出现了以下报错(已隐去路径信息)

Traceback (most recent call last):
tokenizer = AutoTokenizer.from_pretrained(model_name)

...
return self.sp_model.get_piece_size()
           ^^^^^^^^^^^^^
AttributeError: 'BaiChuanTokenizer' object has no attribute 'sp_model'

可以看到是其内置的Tokenizer找不到相关的参数。关于这个问题，有两种解决方法，都可行。但是笔者因为不想修改很多环境，所以选择了第二种。

第一种修改环境版本

首先查看Transformer版本

pip show transformers

如果你的版本高于4.33.3，那么这个方法是适用的

只需要卸载高版本Transformer，再次下载4.33.3的版本即可。需要注意的是，可能你的torch版本也需要同步到2.0

然后就可以正常运行了。

第二种修改代码

首先进入Huggingface的官网找到模型（https://huggingface.co/FreedomIntelligence/HuatuoGPT-7B/tree/main）

接下来下载tokenization_baichuan.py文件

将其中的super()放在最后，就可以解决报错问题，截图如下：

修改后的顺序为：

        self.vocab_file = vocab_file 
        self.add_bos_token = add_bos_token
        self.add_eos_token = add_eos_token
        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
        self.sp_model.Load(vocab_file)
        super().__init__(
            bos_token=bos_token,
            eos_token=eos_token,
            unk_token=unk_token,
            pad_token=pad_token,
            add_bos_token=add_bos_token,
            add_eos_token=add_eos_token,
            sp_model_kwargs=self.sp_model_kwargs,
            clean_up_tokenization_spaces=clean_up_tokenization_spaces,
            **kwargs,
        )
        # self.vocab_file = vocab_file
        # self.add_bos_token = add_bos_token
        # self.add_eos_token = add_eos_token
        # self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
        # self.sp_model.Load(vocab_file)

然后就可以正常运行了。

下载模型的代码附下，每次只需要修改“model_name”即可：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 设置模型的名称
model_name = "FreedomIntelligence/HuatuoGPT-7B"

# 创建并保存tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.save_pretrained("./HF_models/HuatuoGPT")

# 创建并保存模型
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
model.save_pretrained("./HF_models/HuatuoGPT")

cube____

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
AttributeError: ‘BaiChuanTokenizer‘ object has no attribute ‘sp_model‘ HuatuoGPT的下载&错误处理

在从Huggingface下载国人做的医学大模型“HuatuoGPT”时，出现了以下报错(已隐去路径信息)可以看到是其内置的Tokenizer找不到相关的参数。关于这个问题，有两种解决方法，都可行。但是笔者因为不想修改很多环境，所以选择了第二种。
复制链接

扫一扫