HuggingFace踩坑记录-连不上,根本连不上

本文介绍了在使用HuggingFaceTransformers时遇到的ConnectionError,重点讲述了如何避免复杂的环境设置,只需下载`pytorch_model.bin`,`config.json`,`tokenizer_config.json`,和`vocab.txt`四个文件,以及如何通过指定正确的基类加载模型和tokenizer进行情感分析任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习 transformers 的第一步,往往是几句简单的代码

from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("We are very happy to show you the 🤗 Transformers library.")
"""
[{'label': 'POSITIVE', 'score': 0.9998}]
"""

但等你配好环境然后简单运行一下,你就会发现一点也不简单!
在这里插入图片描述
直接报错ConnectionError,一查原来是被huggingface被和谐了啊,科学上网都救不了,然后报错里提到是:
https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english
连不上。

但方法肯定是有的,网上大多数方法都是照搬
https://hf-mirror.com/
的主页,又是改环境变量又是下载下载工具的,给的例子也一点不具体。实际根本不好用,命令行配置太多,然后名字有太长,实际上它的作用也就是把
https://hf-mirror.com/distilbert/distilbert-base-uncased-finetuned-sst-2-english
下面所有的东西都下下来。。。 这些东西并非全都用得到吧,下下来是需要好很长时间的吧,那假设我只是使用pytorch而已的话,需要下哪些东西呢?(附注:你当然可以通过代码或者命令行指定匹配规则进行过滤来指定下什么东西,但是这样看着太冗长,感觉不如自己手下来的方便直观)
在这里插入图片描述
经过各种查阅和总结试错,假如你只是想使用pytorch下的模型,你只需要下载:

pytorch_model.bin
config.json
tokenizer_config.json
vocab.txt

即可,那么好,接下来要怎么加载这个模型并使用它呢?这个问题得到了很快的解决,通过报错的提示,还有命名,大概就能猜出来。一般来说,先指定根路径,也就是刚刚下载好的那4个文件的路径,然后指定模型基类和tokenizer基类,最后才可以顺利调用pipleline.总结如下:

import transformers
from transformers import pipeline, DistilBertForSequenceClassification, DistilBertTokenizer

# 1. 手动下载好上面说的四个文件并存到指定目录
bert_path = "D:/datasets/huggingface/models/distilbert-base-uncased-finetuned-sst-2-english"
# 2. 使用正确的基类(鸡肋)来加载 model tokenizer 
#    (DistilBertTokenizer, DistilBertForSequenceClassification)也都是尝试出来的
tokenizer = DistilBertTokenizer.from_pretrained(bert_path)
model = DistilBertForSequenceClassification.from_pretrained(bert_path)
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

随后,就可以进行玩耍了
比如这里我给了一个长长的句子,大概描述了我刚刚踩的坑(你也知道这是negative啊)

classifier("It is a bad experience when I try to access hugging face, "+
           "I have to downald them in mirror website and analyze which files shoud I downald!")
           
[{'label': 'NEGATIVE', 'score': 0.999805748462677}]

再来个句子,带点转折意味

classifier("However, method always exists, although it takes too much time!")

[{'label': 'POSITIVE', 'score': 0.9861053824424744}]

再来个,断章取义取自不要断章取义!

classifier("although it takes too much time!")
[{'label': 'NEGATIVE', 'score': 0.9921171069145203}]

看得出来还是挺准的

### 加速Hugging Face资源下载方法 为了加速Hugging Face模型或数据集的本地下载速度,可以采用多种策略来优化这一过程。 #### 使用Git进行批量下载并配置代理 对于包含大量文件的大型项目而言,利用`git lfs`和常规`git clone`命令能够实现高效的一次性获取整个仓库的内容。这仅限于单个文件的操作,而是针对整体结构的一种解决方案[^1]。当网络环境佳时,设置合适的HTTP(S)代理能显著改善传输效率;具体来,在执行任何基于Git的操作前完成如下代理设定: ```bash git config --global http.proxy socks5://127.0.0.1:1080 git config --global https.proxy socks5://127.0.0.1:1080 ``` #### 利用官方提供的CLI工具与镜像站点 除了上述方式外,还可以借助专门设计用于简化交互流程的命令行界面——即`huggingface-cli`来进行操作。此工具允许用户更便捷地管理认证信息以及发起下载请求。特别是面对国内用户可能遇到的速度瓶颈问题时,连接至靠近地理位置的服务端口会带来更好的体验效果[^2]。例如,可以通过指定参数`--mirror`指向特定区域内的缓存节点以加快加载时间: ```bash huggingface-cli download --repo-type dataset --resume-download rohit901/VANE-Bench \ --local-dir /data1/zjk/VANE-Bench/Dataset \ --mirror cn ``` 这里需要注意的是,如果之前已登录过平台,则需更新个人访问令牌并通过再次运行`huggingface-cli login`指令确保最新权限生效。 #### 实现断点续传功能提升稳定性 考虑到长时间持续的数据交换过程中可能出现意外中断的情况,启用支持断点续传特性的选项有助于保障任务顺利完成而必担心中途失败重试带来的额外开销。上述例子中的`--resume-download`标志正是为此目的而设,它使得程序能够在先前停止的位置继续未竟的工作,从而有效减少重复劳动所带来的负面影响。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值