从Hugging Face上手动下载并加载预训练模型

0. 说明:

从 Hugging Face 上手动下载预训练的蛋白质语言模型(以ProstT5为例),用模型中的 encoder 部分对蛋白质进行编码,得到 embedding features,用于下游的任务。

【ps. 除了手动下载之外,还可以用其他的下载方式,详情可见 https://zhuanlan.zhihu.com/p/663712983】
【ps. 如果是自动下载,默认下载位置在 ~/.cache/huggingface/

1. 手动下载与训练模型:

直接从 Hugging Face 网站上下载所有的文件,如下图所示(以 ProstT5 为例,URL = https://huggingface.co/Rostlab/prot_t5_xl_half_uniref50-enc/tree/main):

在这里插入图片描述

2. 将下载的预训练模型保存到服务器并加载模型:

将上述所有文件放到一个文件夹中,然后上传到服务器上。

加载模型的时候,直接将路径放到T5Tokenizer.from_pretrained()T5EncoderModel.from_pretrained()中的第一个参数位置即可。

3. 关于模型的使用,可以见 Hugging Face 上提供的案例

PS. 如果有其他问题,会更新本文 . . .

参考:

[1]. https://zhuanlan.zhihu.com/p/663712983

### 如何从Hugging Face下载模型文件 #### 使用官方客户端库自动下载 为了简化流程确保兼容性,推荐使用Hugging Face提供的Python库`transformers`来获取预训练模型及其配套资源。安装此库之后,在脚本里指定所需模型名称即可实现自动化加载过程[^2]。 ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "bert-base-uncased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) ``` 这段代码不仅能够处理模型本身的下载工作,还会同步拉取必要的分词工具及相关配置文档,比如`config.json`, `vocab.txt`以及可能存在的额外组件如`special_tokens_map.json`等[^4]。 #### 手动下载方法 对于那些希望完全掌控下载细节或是遇到网络问题的情况,则可以选择手动方式: 访问[Hugging Face模型页面](https://huggingface.co/models),定位至目标模型条目下(例如`bert-uncased`),点击进入详情页后可以看到一系列可供单独选取的文件链接。用户可以根据实际需求挑选特定版本或组成部分进行保存,按照指示将其放置于本地缓存目录内(通常是`~/.cache/huggingface/transformers`)[^1]。 如果是在Linux环境下遭遇下载障碍,可以通过设定环境变量指向备用镜像站点的方法绕过原生源站限制。执行如下指令可更改默认请求地址为国内加速节点,从而提高成功率和速度[^5]: ```bash export HF_ENDPOINT="https://hf-mirror.com" echo $HF_ENDPOINT # 验证设置是否成功应用 ``` 需要注意的是上述变更仅限于当前shell session期间有效;若要持久化修改则需进一步编辑`.bashrc`或其他初始化脚本文件。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值