关于AutoML系统的思考

不说NAS和AutoDL(我认为CV和NLP中的常规任务完全是可以Auto的),对表单数据,一个AutoML系统真的很难真正Auto,我自己感觉有下面几点的问题。

  • 看了一些比赛的数据集,发现很多真实的业务是非常复杂的,建模方式没有那么直接,比如19年魔镜杯,预测用户每个月的还款日期和金额,需要思考一下怎么建模,好像一般是做成当成多分类来做。

  • 不能单纯的分成回归和分类问题。比如在预测性维护中,可能是对一个时间序列做分类。时间序列和非时间序列处理起来是差很多的,需要分成两部分来做。还有的数据集,包含时间序列的表和非时间序列的表,这样就更复杂。

  • 评价指标的确定。 常用的就那几种,AUC, F1, RMSE, MAP等, 但还有很多是不太常见的,我看到了比如CSPR, MCC, 可决系数(coefficient of determination)。

  • 空间数据。 个人认为,常规的特征工程,很难挖到空间方面的信息。比如可能需要对一些坐标做geohash,做graph embedding。如果是时空数据挖掘,就更复杂了。

  • 特定领域的数据。比如通信领域的数据可能包含IMEI,在预处理阶段,这一列数据需要靠人的知识去判断是否要解析出来,是否解析影响可能会非常大。多列之间的相互关系,也不太能auto,不是多列组合后的统计特征,而是说一个样本内,某几列的相互关系,比如某几列在一个样本内取rank。 除非做特征工程时,哪几类数据是相关的。

  • 有些训练集没有显式的label,不能随机划分验证集的一些训练集。比如给定用户的历史交易数据,预测用户未来一段时间内的购买次数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值