1. 导入数据集
Cifar10,Cifar-100,Mnist、STL-10、SVHN都是常见公开的数据集。这里以Cifar10举例。Cifar10和Cifar100是8千万张微小图片数据集,由Alex Krizhevsky,Vinod Nair,Geofferey Hinton收集。
Cifar10 包含6万张32*32彩色图片,共10个分类。其中50000作为训练,10000作为推理。
在Workload里面选择deep learning标签页,然后点击DataSets,点击New,添加数据集种类。包含Caffe和Tensorflow的数据格式LMDBs和TensorFlow Records.这里选择原始图片。Images for Object Classes.
填写数据集的名字,服务器存放数据集的位置,测试数据百分比。输出模式。
创建成功后的,可以看到各个分类的图片数量。
2. 创建模型
在DeepLearning标签页选择models,选择New,选在Add Location。添加框架的名字,路径描述。如果是Caffe模型模板,路径内需要有train_test.prototxt,solfver.prototxt文件。如果是Tensorflow模板,需要在路径下有main.py inference.py ps.conf。
模型模板有一些samples放在cloud上面,可以下载。这里选择使用caffe samples中的cifar10。 模型文件提前下载放在服务器的/dli_shared/fs目录下。
模型例子下载链接
3. 训练
在Deep Learning标签页中,Models下点击train,设置训练的模型,所用的GPU的数量。是否有weight file。 点击start training。
在Models页面,点击训练的模型名称,进入之后点击Training可以看到刚才训练的任务。在此页面还可以看到,有超参数搜索的选项和模型评估的选项。点击这里训练模型名字,可以看到训练的loss函数和准确率的曲线图等。
4. 导出推理模型
在models页面中,点击model的名字,创建一个推理模型。这里也可以做模型评估,导出weight files。
5. 推理服务
推理服务,在模型部分,选择inference的models 名称,选择Test,上传待判定的图片,点击start test。然后再模型标签页中,选择inference 模型名称。查看inference的结果。
6. 总结
至此,基于cifar10的caffe框架的数据集导入、训练、推理任务全部完成。其他数据集或者模型框架也都可以尝试。本次记录也未设计并行计算即多个GPU卡同时训练的情况。