氢电池赛道
比赛方提供了很大数据量的真实场景数据,也提供了清洗数据的脚本。预测目标为 氢电池在稳态状态下的性能均值。
数据说明
- 预测目标:氢电池性能在一段时间范围内的均值
- 154维输入:
- 自变量
– 控制程序版本号、空气路设定 等 - 因变量
– 电气路电流、冷却路反馈、环境反馈 等
解题思路
- 样本量较少,但是序列数据充足,比较适合做数据增强
- 单特征分析,找到那几个存在leak
算法选择
由于数据量少,树模型表现更好,使用树模型进行建模。
总结
虽然融合了很多模型,但是最终榜单的分数抖动很大,基本上翻倍了,分数受到少数异常样本的影响很大,基本上就是看谁的随机种子更好了。
液晶面板
数据说明
- 评价指标:RMSE
- 问题类型:多变量回归
- 输入数据:
– 239个训练数据
– 50个测试数据
– 27维的匿名时间序列输入 - 加工分为10个阶段:Prehea,NH3,pv2,PL ……
– 不同阶段的持续时间不等 - 预测标签:均值在3000附近的28维数值
解题思路
- 单特征选择,找到几个比较鲁棒的特征
- 数据量较少,尽量减少过拟合
算法选择
- 数据量少的时候树模型更优
总结
最后选择模型的时候没有选择a榜分数第一的模型,虽然通过分析发现了ab很可能榜存在联系,但是没想到最后ab榜数据几乎一致。