1、简介
在工作以及科学研究过程中,很多优秀的数据集都来自国外,但有时在有外网权限的条件下,使用终端下载,网络的下行速度往往不尽如人意,甚至只有几十KB,同时过久的下载易导致连接中断甚至下载失败。所以这里提供两个可以加速数据资源下载的方法,分别是有外网条件和没有外网条件的方法,这两种方法只是区别于网络条件,基本思路是一样的,另外所使用的平台也有一些区别。
2、国内网络条件
i、主要工具
- 平台地址:SageMaker Studio Lab
- 这是亚马逊提供的一种
完全免费
、基于浏览器的集成开发环境(IDE),专门设计用于机器学习(ML)和深度学习(DL)项目的开发与实验。它是 Amazon SageMaker 的一个轻量级版本,旨在为数据科学家、机器学习工程师和研究人员提供一个易于使用、零成本的开发环境,以便进行数据分析、模型开发和训练。 - 进行机器学习或者深度学习的开发是该平台主要的作用,下载数据只是我们取巧的方法。
ii、注册使用
-
登录平台主页后,点击
Request account
注册平台账户,虽然是亚马逊的产品,但是这里并不需要信用卡信息也不需要亚马逊账户,只需要一个邮箱就可以搞定,但是推荐使用教育邮箱申请,通过率会更高。
-
通过申请后,登录账号可以选择使用CPU或GPU支持,平时使用选择CPU时间会长一些,GPU资源有限所以使用时间相对较短。
-
点击
Start runtime
创建一个运行示例,并点击Open project
开始,可以选择Terminal
打开命令行终端。
-
Studio Lab提供15GB的持久化存储,意味着项目和数据集都可以永久保存在云中。不会因为每次创建和关闭实例而被销毁,在终端中,可以使用
wget指令
,下载任何可以通过该指令下载的内容,包括国外的数据集,实测网络速度在20MB/s左右。
-
下载之后保存在云端的持久化存储中,需要再下载到本地存储。
3、国外网络条件
i、主要工具
- 平台地址:Google colab
- 这是由 Google 提供的基于云的 Jupyter Notebook 环境,专门为机器学习和数据科学任务设计。它允许用户编写和执行 Python 代码,进行数据分析、机器学习模型的开发与训练,并且
完全免费
提供 GPU 和 TPU 加速计算资源,特别适合需要大量计算资源的任务。(不过科学上网需要付费) - 进行机器学习或者深度学习的开发是该平台主要的作用,下载数据只是我们取巧的方法。谷歌的colab需要结合谷歌的云盘一起使用来实现持久化存储,所以在使用之前需要保证在colab中正确挂载个人的云盘。
ii、注册使用
-
可以新建一个notebook,也可以加载本地的notebook,然后
连接到托管的运行时
,也就是申请一个虚拟机实例。
-
连接后,可以选择文件操作的第三个选项装载谷歌云盘,也可以使用指令装载。
-
使用指令挂载,根据弹出的提示登录云盘账号进行挂载
from google.colab import drive drive.mount('/content/drive') # 根据云盘路径修改挂载路径
-
成功后会提示挂载路径,进入到指定目录,使用指令下载数据,需要注意在正常的
wget
前加!
号。cd /content/drive/MyDrive !wget xxxxxxx.zip # 下载到/content/drive/MyDrive目录下
-
之后通过谷歌云盘再下载到本地,这个时候就取决于本地的网络以及科学上网工具的速度了。
小结
以上是两种可以加速数据下载的方法,但亚马逊和谷歌的平台可以实现更多的价值,大家可以自行了解!!