目标: 设计机器学习管道(自动化生成具有复杂结构的数据驱动模型)
原因: 构造复合管道是一项复杂耗时的任务,现有的机器学习实现缺乏自动化,需要人为选择特 征选择方式,构建模型。
优化公式:
f是适应函数,在限制时间内最大的适应值,为所有可能的管道结构,为最优结构。
六大问题:
1、在实际问题中复合结构不清楚是否优于简单结构
2、仍然没有统一的方式来表示不同模型和操作
3、目前没有方法结合ML和WMS(工作流管理系统)
4、如果设计需要对每个结构块的影响进行分析
5、需要统一的超参数调整,可以有效地来对不同的建模任务和类型数据
6、需要简单易行的导出和导入复合管道的专门方法
设计部分分为组成和超参数调整两个部分。
组成部分:优化前加载数据库,搜索空间,目标,终止标准,进化搜索算法的超参数。建议使用之前AutoML解决方案作为初始,减少收敛的时间。整个进化的过程中,算法测量新生成管道的目标,利用训练样本获得新的复合模型的结构和参数,之后用一个测试集来评估指标。见图1
超参数调整部分:通过实验回归和分类得到的结果比较,选择使用同步调优算法,见图2
图1
图2
本文提出的整体框架:
图3
参考文献:
[1]Nikitin N O, Vychuzhanin P, Sarafanov M, et al. Automated evolutionary approach for the design of composite machine learning pipelines[J]. Future Generation Computer Systems, 2021.