一、环境及准备工作
CPU/GPU复现使用华为云ModelArts-CodeLab平台
Ascend复现使用华为云ModelArts-开发环境-Notebook
原始Lenet代码链接:https://gitee.com/lai-pengfei/LeNet
二、在CPU/GPU中运行原始代码
第一步:打开CodeLab
注:如果需要切换GPU资源,可以点
资源选择GPU资源,可以使用1小时,1小时候需要手动续时
点击页面中的Terminal进入终端界面:
终端界面:
第二步:进入到work目录并git clone 相关代码
git clone https://gitee.com/lai-pengfei/LeNet
可以看到左面有git下来的代码了
第三步:切换TensorFlow运行环境
source activate /home/ma-user/anaconda3/envs/TensorFlow-1.13.1/
这里是1.13的,但是问题不大,大差不差,也可以跑和1.15差不多
第四步:进入文件夹并执行原始代码
cd cd LeNet/
python Train.py
运行中:
运行结果:
三、模型移植
环境使用华为云-开发环境Notebook
创建环境
镜像选择勾选的
规格等设置如下图:
环境及代码下载参考CPU/GPU
切换到Ascend下的TensorFlow 1.15运行环境
source activate /home/ma-user/anaconda3/envs/TensorFlow-1.15.0/
代码修改
根据文档修改原始代码中的Train.py
文档地址:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/51RC2alpha007/moddevg/tfmigr/atlasmprtg_13_0011.html
添加引入包的代码:
from npu_bridge.npu_init import *
修改创建session并初始化资源相关代码
这一步主要在sess.run(tf.initialize_all_variables())前添加以下几行代码
config = tf.ConfigProto()
custom_op = config.graph_options.rewrite_options.custom_optimizers.add()
custom_op.name = "NpuOptimizer"
config.graph_options.rewrite_options.remapping = RewriterConfig.OFF # 必须显式关闭
config.graph_options.rewrite_options.memory_optimization = RewriterConfig.OFF # 必须显式关闭
sess = tf.Session(config=config)
这个Demo还需要改一下第一行相关库代码
原始代码:
import tensorflow.examples.tutorials.mnist.input_data as input_data
修改为:
from tensorflow.examples.tutorials.mnist import input_data
运行代码
python Train.py
看到W tf_adapt差不多字样就说明调用到了NPU资源
运行过程:
可以开启另一个Terminal查看是否真的使用了Ascend,在新的Terminal中使用如下命令:
npu-smi info
运行结果:
将运行结果保存到obs
需要将modelarts的运行结果保存到obs中,我们需要引入mox库方便操作obs文件
代码如下:
import moxing as mox
拷贝文件的代码如下:
mox.file.copy_parallel(./checkpoint,你的obs地址obs://开头或者s3://开头)
mox.file.copy_parallel(源路径,目标路径)
这个代码可以从obs拷贝文件到环境,也可以从环境拷文件到obs
这个demo中将这行代码加载main()的最后即可,代码位置一般选择运行执行完毕并且已经生产完需要拷贝的文件的后面即可。
拷贝过去后的ckpt文件
总结
到这里整个简单的TensorFlow移植Ascend平台运行的代码修改就完成了,其实整个过程算是比较简单的,会者不难,不会可能会觉得很难。模型迁移的话主要难点在可能存在有些算子不支持以及精度性能优化部分。