直播实录|百度大脑EasyDL·NVIDIA专场部署专家

百度大脑

于 2020-06-01 16:49:49 发布

阅读量1.3k

点赞数

文章标签：百度大脑 nvidia AI课后实录

本文链接：https://blog.csdn.net/weixin_45449540/article/details/106474932

版权

本次直播回顾介绍了百度大脑EasyDL专业版的技术原理，包括数据集管理、模型训练、部署到Jetson Nano的流程。讲解了EasyDL支持的数据增强、迁移学习、自动超参调优等功能，以及脚本调参和Notebook的使用。此外，还探讨了EasyDL模型在Jetson Nano上的部署和性能，并分享了实际的部署案例。

摘要由CSDN通过智能技术生成

EasyDL—Jetson Nano部署方案技术解析

时间：2020年5月28日
讲师：百度AI开发平台部高级研发工程师川峰

【直播回放】
EasyDL-Jetson Nano部署方案技术解析与应用实战：https://www.bilibili.com/video/BV1Rz411v7wS

【课程笔记】

课程大纲：
1. EasyDL专业版技术原理介绍
2. 训练并部署模型到Jetson Nano演示

【EasyDL专业版技术原理介绍】
EasyDL是一个零门槛的AI开发平台，目前发布了三个版本：经典版、专业版和零售版。经典版是零算法基础可以定制高精度AI模型，我们基本上使用鼠标点一点就可以获取自己数据集训练出来的模型，以及包含训练模型和部署代码的SDK，并且支持的AI任务比较多，像图像分类、物体检测、图像分割、文本分类、声音分类和视频分类。专业版主要是面向AI开发者或企业用户推出的AI模型训练及服务平台，也是提供了脚本调参功能，可以自定义超参和网络的头部结构，可深度定制自己的模型。最近我们也上了一个新的功能Notebook，提供了Notebook开发环境，大家可以完全从头定制代码，定制模型。零售版是专用于零售行业用户，训练商品检测、货架拼接的模型训练平台。
在这里插入图片描述
今天我们主要介绍EasyDL专业版的一些技术原理，包括也会用专业版演示如何从准备数据集开始训练一个模型，以及获取到SDK，到最后在Nano上完成部署。专业版支持脚本调参和Notebook，可深度调参和定制模型，并且支持飞桨Master模式。提供了基于百度海量数据集训练的预训练模型，加上EasyDL优秀的迁移学习的产业实践，使得大家在专业版使用少量数据集就可以达到很好的训练效果。目前专业版是支持了CV和NLP两大任务，CV支持图像分类和物体检测，NLP支持文本分类，短文本匹配和序列化标注，提供了一系列的训练模型。这里是目前EasyDL专业版已经支持的部分模型，包括14类图像分类和7种物体检测算法，并且这个模型库也是在不断丰富，具体的大家可以去EasyDL官网查看相关技术文档了解。
在这里插入图片描述
这一页主要是讲EasyDL专业版的技术框架图。上层业务系统，是大家可以感受到的或者可以交互的，包括数据集管理、模型训练、模型评估、模型校验、模型发布。再往下是深度学习工作流，支撑上层业务系统，有数据服务，提供了数据管理，智能标注和数据闭环。智能标注我一会也会用到，数据闭环的意思是在使用公有云API预测的时候，可以将API接口识别错误的图片添加到指定的数据集并纠正结果，后续训练模型的时候就可以增加包含接口数据的数据集，这样就可以提升模型的效果。数据预处理这块提供了数据增强的功能，包括手动和自动数据增强，后面我们会再讲到一些细节。模型训练稍微复杂一点，我这里列了几个功能点，包括迁移学习、分布式训练加速、自动超参调优、Auto DL Search和Anchor自适应调优。模型评估，有mAP，F1-score，精确率，召回率，平均精度。模型部署的部分也是支持了将模型发布为适配各种硬件形态的SDK，大致分为这四大类，包括公有云部署，私有服务器部署，设备端通用SDK和专项硬件适配，大家可以根据自己的需要发布。这一整套流程都是通过AI Workflow串起来的，并工作在深度学习平台飞桨之上的。
在这里插入图片描述
数据的智能标注，这部分是提升效率的工具，使用智能标注可以只标注数据集一小部分，最低要求是每个标签标注量不少于10张图片，然后启动智能标注，让AI帮你标注，它会筛选出一些图片，你直接确认就行了。为什么可以使用智能标注呢，我这里举个例子，比如我们有一个模型，是可以识别猫的模型，现在想加入新的图片到训练集当中，比如下面还有三张猫图，什么样的图片会对效果提升有帮助呢，显然就是第二和第三张，因为第一张和原有数据集的图太相似了，对于提升模型的泛化能力不是很好，智能标注就是为大家挑选出第二第三张这样的图片让大家标注，第一张就是自动标注，节省标注成本。在流程上，就像刚才说的，需要为每个标签至少标注10张以上的图，然后启动智能标注，其实后端会帮大家训练一个模型，用这个模型在数据集标注的图片进行识别，标注有问题的图片会反馈回来进行人工标注，反复多次迭代，剩下的数据可以一键标注或者大家手动结束这样的流程。
在这里插入图片描述
EasyDL还对数据预处理提供了自动数据增强的功能，这里有两个问题，一个是如何在有限的样本下提供更好的模型效果，要么是优化模型，要么就是使用数据增强。还有一个问题，如何构建与数据集特性强相关的数据增强策略呢，EasyDL专业版提供了自动增强的策略，以视觉训练为例，我们可以结合数据集的特性做一些，例如平移、旋转、亮度调整和裁剪等操作，以生成新的图加入数据集。比如这个猫，右边的6个图是对原数据的数据增强得到的新图，这就可以达到更好的泛化能力。在现实场景中，我们可能会有一些在有限场景中拍摄的数据集，但是目标存在不同的条件，比如不同的方向、位置、亮度等等，这时候就可以通过额外合成数据向模型提供这些数据分布，但是数据增强需要的配置参数非常多，像刚才提到的调整的对比度、亮度以及缩放比例，具体调多少，参数太多了，组合起来的空间非常大，人工调参就需要很多的经验，费时费力，所以我们就需要进行自动搜索数据增强的超参。EasyDL的数据增强也是提供了一系列的增强策略，用户可以手动设置数据增强的超参，当然这个可能对用户要求比较高，你需要对领域知识和数据特征比较熟悉才行，不过也可以选择自动数据增强，我们后端会根据大家的数据集的特征和增强策略进行自动搜索，以产出一个最佳的增强参数，从而提升数据集的规模，来获得更好的模型的性能。
在这里插入图片描述
这里列出来的是EasyDL专业版的图像分类和物体检测支持的数据增强的策略，比如像剪切、平移、旋转，调整对比度和亮度等等，物体检测数据增强操作是多一点，主要是对标注框里的物体做了一些处理。

接下来这张图是使用数据增强和不使用数据增强的效果