如果是用的linux服务器界面下运行代码下载huggingface dataset,如果这个dataset需要验证(像llama那样),会出现下面的报错:
报错提示:
datasets.exceptions.DatasetNotFoundError: Dataset 'xxx' is a gated dataset on the Hub. You must be authenticated to access it.
即访问的数据集需要验证
解决方法:
1.先在huggingface官网对应的数据集页面获得权限
2.然后复制自己profile下的access token
3. 进入服务器终端安装huggingface_hub
pip install huggingface_hub
4. 服务器登陆huggingface
huggingface-cli login
正常运行完之后会要求出入你的access token,把刚刚复制的access token粘贴
5.重新运行业务代码即可