【BML全功能AI开发平台初体验】轻松实现高精度模型调优——模型超参搜索

最新推荐文章于 2024-08-27 14:46:18 发布

Mr.郑先生_

最新推荐文章于 2024-08-27 14:46:18 发布

阅读量1.1k

点赞数 1

分类专栏： BML 人工智能 PaddlePaddle 文章标签：神经网络 AutoDL 超参搜索调优飞桨

本文链接：https://blog.csdn.net/zbp_12138/article/details/118001762

版权

人工智能同时被 3 个专栏收录

51 篇文章

订阅专栏

PaddlePaddle

40 篇文章

订阅专栏

BML

4 篇文章

订阅专栏

最近在体验全功能AI开发平台BML（Baidu Machine Learning），一上手就停不下来那种，真的越用越喜欢！

我的研究方向是自动机器学习，在深度学习建模过程中，除了大规模的数据集，超参数调节也显著影响模型效果。即使对于有经验的算法工程师，有时候也很难把握调节超参数的规律，而对于初学者来说，要花更多的时间和精力。

BML平台有自动超参搜索的功能，对于我这种热爱学习（又懒又菜）的开发者来说，当然要试一试啦！

一、超参搜索基本概念

可能有些开发者还不清楚什么是超参数，下面我来给大家科普一下~（大佬请自觉跳到第二章节【手动狗头】）

参数

参数是机器学习算法的关键，是从训练数据中学习到的，属于模型的一部分。

不知道大家还记得权重吗?
适合新手入门且最简单的ANN人工神经网络模型(Python)

看看这篇文章里讲到的只有一个神经元的神经网络的权重:
在这里插入图片描述
输入一个值（x），乘以权重，结果就是网络的输出值。权重可以随着网络的训练进行更新,从而找到最佳的值,这样网络就能尝试匹配输出值与目标值。

下面再来看一下更复杂的网络:
在这里插入图片描述
为了得到预期的输出结果，将权重初始化后，权重可以随着网络的训练进行更新，从而找到最佳的值，这样网络就能尝试匹配输出值与目标值，从而得到预期的结果。

这里的权重其实就是一种参数。

超参数

模型的超参数指的是模型外部的配置变量，是不能通过训练的进行来估计其取值不同的，且不同的训练任务往往需要不同的超参数。

超参数不同，最终得到的模型也是不同的。

一般来说，超参数有：学习率，迭代次数，网络的层数，每层神经元的个数等等。

常见的超参数有以下三类：

网络结构，包括神经元之间的连接关系、层数、每层的神经元数量、激活函数的类型等 .
优化参数，包括优化方法、学习率、小批量的样本数量等 .
正则化系数

实践中，当你使⽤神经⽹络解决问题时，寻找好的超参数其实是一件非常困难的事情，对于刚刚接触的同学来说，都是"佛系调优"，这也是一开始就"入土"的原因，没有依据的盲目瞎调肯定是不行的。

手动调整超参数的四大方法

我们在使用某一网络时，般是比较好的论文中出现过的，是证明过的，当然也可以直接套用，然后在这个基础上，调参。

可是如果识别的领域不同，比如同样是LeNet网络，在解决手写数字识别时使用的超参数能得到很好的效果，但是在做眼疾识别时，因为数据集的不同，虽然使用同样的超参数，但是效果可能并不理想。

在<< Neural Network and Deep Learning >>这本书中，作者给出⼀些⽤于设定超参数的启发式想法。⽬的是帮读者发展出⼀套工作流来确保很好地设置超参数。这里我把书上的内容总结一下，再结合自己的思考，与大家共同探讨调整超参数的方法论。

不过呢，目前不存在⼀种通用的关于正确策略的共同认知，这也是超参数调节的"玄学"之处。

1.使用提前停止来确定训练的迭代次数

这个策略是我的老师最早教我的，个人认为这也是防止过拟合最直接的方式。

做法其实很简单，做一个判断，满足条件时退出循环,终止训练：

for epoch in range(MAX_EPOCH):
	// 训练代码
	print('{}[TRAIN]epoch {}, iter {}, output loss: {}'.format(timestring, epoch, i, loss.numpy()))
	if ():
		break
	model.train()

那么这个if条件判断就十分重要了,这里有两种方案:

分类准确率不再提升时
loss降到一个想要的范围时

分类准确率不再提升时

我们需要再明确⼀下什么叫做分类准确率不再提升，这样方可实现提前停止。

我们知道，分类准确率在整体趋势下降的时候仍旧会抖动或者震荡。如果我们在准确度刚开始下降的时候就停止，那么肯定会错过更好的选择。⼀种不错的解决方案是如果分类准确率在⼀段时间内不再提升的时候终止。

当然这块用loss也是可以的，loss也是一个评判标准。

loss降到一个想要的范围时

这是我经常使用的、更直接的方法。

比如在前几轮的训练中,我知道loss一直在2.6-2.7的附近徘徊:
在这里插入图片描述
在下一次训练中，可以把条件设置为当loss小于2.0时终止训练。

因为网络有时候会在很长时间内于⼀个特定的分类准确率附近形成平缓的局面，然后才会有提升。如果你想获得相当好的性能，第一种方案（分类准确率不再提升时）的规则可能就会太过激进了 —— 停止得太草率。

而本方案（loss降到一个想要的范围时）能很好地解决这一问题，但随之而来的问题就是不知不觉地又多了一个超参数，实际应用上，这个用于条件判断的loss值的选择也很困难。

2.让学习率从高逐渐降低

我们⼀直都将学习速率设置为常量。但是，通常采用可变的学习速率更加有效。

如果学习率设置的过低，在训练的前期，训练速度会非常慢；而学习率设置地过高，在训练的后期，又会产生震荡，降低模型的精度：
在这里插入图片描述

所以最好是在前期使用一个较大的学习速率让权重变化得更快。越往后，我们可以降低学习速率，这样可以作出更加精良的调整。

⼀种自然的观点是使用提前终止的想法。就是保持学习速率为⼀个常量直到验证准确率开始变差，然后按照某个量下降学习速率。我们重复此过程若干次，直到学习速率是初始值的 1/1024（或者1/1000）,然后终止训练。

3.宽泛策略

在使用神经网络来解决新的问题时，⼀个挑战就是获得任何⼀种非寻常的学习，也就是说，达到比随机的情况更好的结果。

也许下面的方法能给你带来某些不一样的启发:

通过简化网络来加速实验进行更有意义的学习
通过更加频繁的监控验证准确率来获得反馈

通过简化网络来加速实验进行更有意义的学习

假设，我们第⼀次遇到 MNIST 分类问题。刚开始，你很有激情，但是当模型完全失效时，你会就得有些沮丧。

此时就可以将问题简化，将十分类问题转化成二分类问题。丢开训练和验证集中的那些除了 0 和 1的那些图像，即我们只识别0和1。然后试着训练⼀个网络来区分 0 和 1。

这样一来，不仅仅问题比 10 个分类的情况简化了，同样也会减少 80% 的训练数据，这样就多出了 5 倍的加速。同时也可以保证更快的实验，也能给予你关于如何构建好的网络更快的洞察。

通过更加频繁的监控验证准确率来获得反馈

这个方法调的其实是输出:

if i % 200 == 0:
	timestring = time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
	print('{}[VALID]epoch {}, iter {}, output loss: {}'.format(timestring, epoch, i, loss.numpy()))

对模型本身并没有任何关系，但是，你能得到更多并且更快地得到反馈，从而快速地实验其他的超参数，或者甚至近同步地进行不同参数的组合的评比。

这一点看似不重要，但对于超参数的调整来说,是很重要的一步

因为在实际的应用中，很容易会遇到神经网络学习不到任何知识的情况。你可能要花费若干天在调整参数上，仍然没有进展。所以在前期的时候，就应该从实验中尽可能早的获得快速反馈。直觉上看，这看起来简化问题和架构仅仅会降低你的效率。而实际上，这样能够将进度加快，因为你能够更快地找到传达出有意义的信号的网络。⼀旦你获得这些信号，你可以尝试通过微调超参数获得快速的性能提升。

这和人生中很多情况⼀样 —— 万事开头难。

4.小批量数据(mini-batch)大小不必最优

假设我们使用大小为 1 的小批量数据。而一般来说，使用只有⼀个样本的小批量数据会带来关于梯度的错误估计。

而实际上，误差并不会真的产⽣这个问题。原因在于单⼀的梯度估计不需要绝对精确。我们需要的是确保代价函数保持下降足够精确的估计。

这就好像你现在要去北极点，但是只有⼀个不太精确的指南针。如果你不再频繁地检查指南针，指南针会在平均状况下给出正确的⽅向，所以最后你也能抵达北极点。

不过使用更大的小批量数据看起来还是显著地能够进行训练加速的。

所以，选择最好的小批量数据大小是⼀种折中。小批量数据太小会加长训练时间；而小批量数据太大是不能够足够频繁地更新权重的。你所需要的是选择⼀个折中的值，可以最大化学习的速度。

幸运的是，小批量数据大小的选择其实是相对独立的⼀个超参数（网络整体架构外的参数），所以你不需要优化那些参数来寻找好的小批量数据大小。

因此，可以选择的方式就是使用某些可以接受的值（不需要是最优的）作为其他参数的选择，然后进行不同小批量数据大小的尝试，就像上面调整学习率那样,画出验证准确率的值随时间（非回合）变化的图，选择得到最快性能提升的小批量数据大小。

二、导入数据集

首先进入BML平台：https://ai.baidu.com/bml/

在这里插入图片描述
点击“立即使用”，进入BML操作平台：

点击“数据集”，进入“我的数据总览”，点击“创建数据集”：

点击“完成”后，会在下方显示刚刚新建的数据集，这里创建了三个数据集，分别是训练集、验证集和测试集：
在这里插入图片描述

本项目中使用的数据集源自AI Studio上的开源数据集：MOT20-COCO格式

MOT20数据集从3个场景中提取了8份全新的稠密人群序列。这份数据集面向非常稠密的人群场景，达到了平均每帧246个行人。这些序列包含了室内/室外，白天/晚上场景。下图显示了这三个场景下训练集与测试集的划分。

将数据集下载下来以后，点击“导入”，将图像导入BML平台：
在这里插入图片描述

导入完成后点击“查看与标注”，可查看数据集的详细信息：
在这里插入图片描述

点击“质检报告”还可以看到原图维度和标注维度上的信息：
在这里插入图片描述

三、新建项目

在左侧“总览”中找到“预置模型调参”，点击“计算机视觉模型”：
在这里插入图片描述
找到适合自己应用场景的任务后，点击“立即创建”，这里我选择的是“物体检测”：

创建完成后，会在下方显示刚刚新建的项目：
在这里插入图片描述

四、自动超参搜索对比实验

这里将通过1个实验对比一下使用自动超参搜索和未使用自动超参搜索的结果；以及3个实验对比平台提供的3种超参搜索算法。

注意！本章在使用自动超参搜索时，使用的“超参范围”是默认配置，即：

『最大搜索次数』：是指最多组合出多少组超参并跑试验，当然有可能会因为提前达到目标而停止，节约费用。
『数据采样比例』：使用超参搜索时，会对原始数据集进行采样后再训练，加快搜索速度。当数据集并不大时，不推荐采样哟，可能会影响最终效果，只有大数据量时才有使用采样的必要。
『最高mAP/最高准确率』：是指大家期望模型效果可以达到的mAP（物体检测）或准确率（图像分类）的值，当试验中达到这个值了搜索就会停止，避免后续浪费搜索时间。

1.不使用自动超参搜索

点击“新建任务”，将前面导入的数据集配置到任务中：
在这里插入图片描述

网络配置中，预训练模型使用通用检测预训练模型，网络使用预测速度和模型精度上折中的YOLOv3-DarkNet：
在这里插入图片描述

在“配置超参数”时，选择超参来源为“脚本编辑”：
在这里插入图片描述
接着配置资源：

因为本项目的数据量较大，所以这里使用“TeslaGPU_V100_16G显存单卡_12核CPU_56G内存”，使用4个计算节点。

配置完成后，点击“提交训练任务”，此时可以看项目中看到任务的训练状态：
在这里插入图片描述

不使用超参搜索时，mAP为62.9%：
在这里插入图片描述

2.随机超参搜索

重新新建一个任务，为了保证实验的效果，数据集和模型组网的部分都保持一致，只在配置超参数时将超参来源选择为“自动超参搜索”
在这里插入图片描述
随机搜索作为基线标准，不需要更多额外的设置，就能高效地进行超参数搜索。

第一次搜索的时候，我设置的最长训练时间是3小时，3小时结束以后还没搜完，显示失败：
在这里插入图片描述
因此，第二次我降低数据采样比例：

将训练节点数拉满，并把训练时长提高：

2.7元/分钟，运行1小时就需要162元，24小时就是3888元。不过还好我领了优惠券，随便用哈哈哈：

飞桨企业版2021年万有引力计划：https://ai.baidu.com/easydl/universal-gravitation?ref=baidudanao