一、加载数据集下载失败
报错:
- TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。
- urllib3.exceptions.NewConnectionError: <urllib3.connection.HTTPSConnection object at 0x00000241F9AD4AC0>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失
可能的解答,可以一试:
(1)这只是一个简单的代理问题。我只是把
https
和http
以及它们的相对代理值添加到windows的系统环境中。python 使用bert-base-nli-mean-tokens伯特模型时出错 _大数据知识库
4.【HuggingFace简明教程补充篇,加载本地数据文件,trainer的使用.-哔哩哔哩】 https://b23.tv/02ncp1W
给出原因:加载数据集时下载失败,因为huggingface把自己的数据文件放在了谷歌的云盘上——
solve:加载本地的数据集,先下载好谷歌的数据文件,然后保存在本地。
代码实例
#使用SBERT进行句子相似度计算
from sentence_transformers import SentenceTransformer
# 加载预训练模型
model = SentenceTransformer('bert-base-nli-mean-tokens')
#定义我们需要计算句子表示的句子
sentence = 'Peking is a beautiful city'
#使用预训练的SBERT模型的encode函数计算句子表示
sentence_representation = model.encode(sentence)
#看该句子表示的维度
print(sentence_representation.shape)
try1:本地不开梯子跑,连接问题;
开梯子跑,结果如下:ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。
代码:
from sentence_transformers import SentenceTransformer, util
# 加载预训练模型
model = SentenceTransformer('distilbert-base-nli-stsb-mean-tokens')
# 输入句子
sentences = ['I love programming.', 'Programming is my passion.']
# 获取句子表示
sentence_embeddings = model.encode(sentences)
# 计算句子相似度
cosine_scores = util.pytorch_cos_sim(sentence_embeddings[0], sentence_embeddings[1])
print("Sentence 1:", sentences[0])
print("Sentence 2:", sentences[1])
print("Similarity score:", cosine_scores.item())
结果:(开梯子了)
1
Q1:如何下载预训练 的模型啊