从Hugging Face上手动下载并加载预训练模型

0. 说明:

从 Hugging Face 上手动下载预训练的蛋白质语言模型(以ProstT5为例),用模型中的 encoder 部分对蛋白质进行编码,得到 embedding features,用于下游的任务。

【ps. 除了手动下载之外,还可以用其他的下载方式,详情可见 https://zhuanlan.zhihu.com/p/663712983】
【ps. 如果是自动下载,默认下载位置在 ~/.cache/huggingface/

1. 手动下载与训练模型:

直接从 Hugging Face 网站上下载所有的文件,如下图所示(以 ProstT5 为例,URL = https://huggingface.co/Rostlab/prot_t5_xl_half_uniref50-enc/tree/main):

在这里插入图片描述

2. 将下载的预训练模型保存到服务器并加载模型:

将上述所有文件放到一个文件夹中,然后上传到服务器上。

加载模型的时候,直接将路径放到T5Tokenizer.from_pretrained()T5EncoderModel.from_pretrained()中的第一个参数位置即可。

3. 关于模型的使用,可以见 Hugging Face 上提供的案例

PS. 如果有其他问题,会更新本文 . . .

参考:

[1]. https://zhuanlan.zhihu.com/p/663712983

Hugging Face上,你可以使用其提供的`transformers`库中的`AutoModel`类配合`torch.hub`模块将预训练模型下载到本地。如果你想将模型下载到远程服务器,首先需要确保服务器上有合适的环境已经安装好`transformers`库及必要的依赖。 以下是一个基本步骤: 1. **安装所需库**:如果你的服务器上没有安装`transformers`,可以通过pip进行安装: ``` pip install transformers torch ``` 2. **选择模型**:确定你要使用的模型,例如,你可以指定模型的名称,如`'bert-base-chinese'`: ```python from transformers import AutoTokenizer, AutoModel model_name = "bert-base-chinese" ``` 3. **下载模型**: ```python tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name) # 这将会下载模型的权重文件 model.save_pretrained('/path/to/remote/server/directory') tokenizer.save_pretrained('/path/to/remote/server/directory') ``` 将`'/path/to/remote/server/directory'`替换为你实际的远程服务器路径。 4. **验证模型**:一旦模型和分词器保存成功,可以在远程服务器上加载验证它们: ```python loaded_model = AutoModel.from_pretrained('/path/to/remote/server/directory') loaded_tokenizer = AutoTokenizer.from_pretrained('/path/to/remote/server/directory') ``` 5. **访问模型**:确保远程服务器能够通过网络共享这个目录,通常这涉及到设置适当的权限和防火墙规则。 注意:由于版权和隐私原因,某些模型可能不允许直接下载,你可能需要查阅Hugging Face的官方文档或联系模型所有者了解详细信息。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值