国能日新光伏功率预测大赛的总结

本文作者分享了参与国能日新光伏功率预测大赛的经验,包括数据预处理、特征工程、模型选择与调参、模型融合等方面的实践和反思。通过时间、float数据、category数据的特征构建,以及特征选择和模型融合策略,探讨了提高预测准确性的关键点。
摘要由CSDN通过智能技术生成

目录

 

写在前面的话

关于比赛

数据和特征工程

1. 时间

2.float数据

3.category数据

4.其他特征

关于特征选择

关于模型调参

关于模型融合

反思和总结


写在前面的话

人生第二次打比赛,一开始是单打独斗,完全陌生的业务场景,我根据能搜索到的Tips疯狂尝试,在别人那里好用的Trick,在我这里效果却疯狂下降,期间也通过开源的baseline学到了提取特征的常见套路,对数据的处理有了一点懵懂的感觉,直到比赛加入了靠谱的队友,但是由于时间原因,未能获得理想的成绩。

新手入门,Mark一下。

 

关于比赛

这题的任务是,根据提供的4个电场的气象数据和辐照数据,预测4个电场未来的发电功率,是一个回归问题。

这里是赛题链接

评价指标是MAE,每日绝对偏差,对4个电场取平均,只计算预测功率大于装机功率的样本。

启示1:解题先读题,磨刀不误砍柴工,最终分数只算正功率的样本,所以训练模型的时候应该剔除晚上的数据,因为晚上无发电功率,甚至存在没有光照但有发电功率的异常数据,会对模型造成扰动。

 

数据和特征工程

原始数据如下

原始数据分为3类:时间数据、float气象数据、category数据。

1. 时间

通过画时间-功率图,我们发现发电功率随着时间的推进,呈现明显的波动趋势,所以时间是个强特征,需要好好挖掘一下。

时间-功率图
时间-功率图

首先经过简单的split,提取出样本所在的年、月、日、小时;

一开始我们以为这题是一个时间序列问题,即假设历史是会重复的,根据以往预测未来,后来发现并不是,但是仍然可以借鉴时间序列模型的思想,构造:当前月是距离初始时间的第几个月、第几年,都可以反映出功率曲线的变化趋势;

差分特征:从第二行开始,求所有维度上本行与上一行的差,可以反映样本在各个特征上的变化。

  • 19
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 60
    评论
评论 60
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值