关于AutoML系统的思考

最新推荐文章于 2025-10-09 10:08:23 发布

原创最新推荐文章于 2025-10-09 10:08:23 发布 · 454 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Machine Learning 专栏收录该内容

11 篇文章

订阅专栏

探讨AutoML在真实业务场景下的局限性，包括复杂建模、时间序列处理、评价指标选择、空间数据分析、特定领域知识应用及无显式标签数据集的处理。

不说NAS和AutoDL（我认为CV和NLP中的常规任务完全是可以Auto的），对表单数据，一个AutoML系统真的很难真正Auto，我自己感觉有下面几点的问题。

看了一些比赛的数据集，发现很多真实的业务是非常复杂的，建模方式没有那么直接，比如19年魔镜杯，预测用户每个月的还款日期和金额，需要思考一下怎么建模，好像一般是做成当成多分类来做。
不能单纯的分成回归和分类问题。比如在预测性维护中，可能是对一个时间序列做分类。时间序列和非时间序列处理起来是差很多的，需要分成两部分来做。还有的数据集，包含时间序列的表和非时间序列的表，这样就更复杂。
评价指标的确定。常用的就那几种，AUC, F1, RMSE, MAP等, 但还有很多是不太常见的，我看到了比如CSPR, MCC, 可决系数(coefficient of determination)。
空间数据。个人认为，常规的特征工程，很难挖到空间方面的信息。比如可能需要对一些坐标做geohash，做graph embedding。如果是时空数据挖掘，就更复杂了。
特定领域的数据。比如通信领域的数据可能包含IMEI，在预处理阶段，这一列数据需要靠人的知识去判断是否要解析出来，是否解析影响可能会非常大。多列之间的相互关系，也不太能auto，不是多列组合后的统计特征，而是说一个样本内，某几列的相互关系，比如某几列在一个样本内取rank。除非做特征工程时，哪几类数据是相关的。
有些训练集没有显式的label，不能随机划分验证集的一些训练集。比如给定用户的历史交易数据，预测用户未来一段时间内的购买次数。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。