国内下载国外数据集(库)方案整理

在科研过程中常常需要下载国外数据集,但鉴于国内网络环境往往无法访问。本文总结了一些下载方案,所介绍的方案适用于没有梯子,或梯子流量不够的情况。

方案一

可以试试直接用迅雷能否下载,试试百度云盘的离线下载能否成功.

方案二

在谷歌colaboratory上将文件下载至谷歌云盘,再使用multcloud关联谷歌云盘,可以实现关闭特殊渠道方式下载.(multcloud网络不稳定)

方案三(推荐)

在阿里云上申请一个入门级的境外服务器(存储空间够即可,无带宽要求;若想使用图形界面需满足1个CPU(2.5GHz),1G内存;仅用命令行则选用最低配置即可。可以选择只购买一周。),或者用谷歌colaboratory(传大文件不稳定),先下载,再用命令行上传至百度云盘,参考
https://www.jianshu.com/p/11f071e1f7fe

https://www.cnblogs.com/liwei0526vip/p/5002434.html

https://github.com/houtianze/bypy

https://github.com/houtianze/bypy/issues/413
安装上传至百度云盘所需要的库

sudo pip install bypy
bypy info
bypy upload filename -v

如果遇到以下问题

<W> !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
<W> WARNING: Can't detect the system encoding, assume it's 'UTF-8'.
Files with non-ASCII names may not be handled correctly.
<W> !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
<W> !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
<W> Encoding for StdOut: ANSI_X3.4-1968
<W> !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

命令行输入

locale-gen en_US.UTF-8
export LC_ALL=en_US.UTF-8
export LANG=en_US.UTF-8
export LANGUAGE=en_US.UTF-8

可以考虑安装图像界面(游客模式数据会在登出后删除,运行卡顿。能流畅运行的配置方案:1个CPU(2.5GHz),1G内存)

apt-get update
apt-get install ubuntu-desktop
reboot

该方案操作简单,上传速度快。

方案四

在阿里云上申请一个入门级的境外服务器(存储空间够即可),挂载一个支持webdav的网盘(国内如坚果云),在服务器上挂载该网盘,可将文件下载至挂载路径下.(下载命令要加上sudo)(大文件该法有问题,小文件可以尝试)

挂载方法如下:

先安装davfs2:

apt-get update
apt-get install davfs2

创建文件夹,并挂载网盘

mkdir /mnt/webdav
mount -t davfs https://uno.teracloud.jp/dav/ /mnt/webdav

输入完用户名和密码,修改文件夹权限

chmod 777 /mnt/webdav -R

出现如下错误不用在意

chmod: changing permissions of '/mnt/webdav/lost+found': Invalid argument

方案五

去某宝找代下载

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用git clone下载数据集,你可以按照以下步骤进行操作: 1. 首先,打开控制台命令行界面。 2. 确保你已经准备好了存放代码的文件夹,可以创建一个文件夹来存放所有的代码。 3. 进入你想要存放代码的文件夹。 4. 执行git clone命令,后面跟上你要下载数据集的git链接。例如,如果你要下载Hugging Face的GLUE数据集,可以执行以下命令: ``` git clone https://huggingface.co/datasets/glue.git ``` 这将会将GLUE数据集下载到当前文件夹中。 请注意,如果你在下载模型或数据集文件时遇到速度较慢的问题,可能是因为Hugging Face的服务器在国外。你可以配置git代理来加速下载。全局代理配置方式是执行以下命令: ``` git config --global https.proxy http://127.0.0.1:1080 ``` 这将会将代理配置为本地的1080端口。 希望这些信息对你有帮助!\[1\]\[2\]\[3\] #### 引用[.reference_title] - *1* *3* [如何批量下载hugging face模型和数据集文件](https://blog.csdn.net/zhaohongfei_358/article/details/126222999)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [从创建文件开始,使用git clone方式把代码上传到服务器上,并配置好环境(Pycharm远程连接服务器来跑代码第...](https://blog.csdn.net/weixin_41377182/article/details/127460316)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值