Datawhale AI夏令营 第三期 Task2 时间序列挖掘+ABM构建学习——阿里云天池平台“第二届世界科学智能大赛社会科学赛道:市场博弈和价格预测” 学习笔记

目录

1.主线任务

2.EDA相关

概念介绍:

数据检查

单变量数值关系 

分时统计特征

不同月份下的电价变化趋势

异常电价分析

负电价

高电价

双变量分析

3.数据特点总结

 4.ABM构建

​编辑

5.实践总结


1.主线任务

深入探索数据特征、发掘潜在方向,以及学习ABM模型的构建方法。

2.EDA相关

概念介绍:

探索性数据分析(Exploratory Data Analysis, EDA)是数据科学和统计分析中的一个关键步骤,其主要目的是通过对数据的总结性统计和可视化手段,帮助我们理解数据的结构、模式和潜在关系EDA 的好处有:

  1. 理解数据特征:通过描述性统计量和可视化手段了解数据的基本特征,如均值、方差、分布等。

  2. 识别数据中的模式和趋势:发现数据中的潜在模式、趋势和相关性,帮助制定后续的分析和建模策略。

  3. 检测异常值和缺失值:识别数据中的异常值(outliers)和缺失值(missing values),这些可能会影响模型的性能或分析的准确性。

  4. 检验假设:通过可视化和统计检验验证数据是否符合特定的假设或理论。

  5. 选择适当的模型:基于对数据的深入理解,选择适当的统计模型或机器学习算法进行进一步分析。

数据检查

timestampdemandprice
2021-12-01 00:15:0040334.18350.80
2021-12-01 00:30:0040523.15350.80
2021-12-01 00:45:0040374.74350.80
2021-12-01 01:00:0040111.55350.80
2021-12-01 01:15:0040067.50348.93

我们主要探索时间电力需求出清价格间的关系。

首先,确认是否有缺失值,发现除了测试集部分,其他均无缺失。

然后,我们观察数据不难发现许多数值是相同的,许多时候,在一小时中出清价格一致。 

单变量数值关系 

统计指标表现

demand

price

count

83520.000000

55392.000000

mean

36595.327516

360.002312

std

9588.519396

203.745125

min

6993.310000

-85.000000

25%

30214.722500

264.142500

50%

36704.025000

401.695000

75%

42868.577500

471.962500

max

75501.330000

1296.000000

使用 Seaborn 库绘制电力需求数值及出清价格各自的分布图。

可以看出总需求数值上接近正态分布,然而,出清价格存在许多负价格,且1-100之间的低价格较多,同时伴有一定的异常高价(800以上)

为更好地理解数据,对这种“异常”分布的机理进行进一步探索。

分时统计特征

这里画出了不同小时的电力需求和电价。

可以发现,存在两个高峰期和一个低谷期。然而理论上10-15点都在进行大量的工业和商业活动,电价和总负荷会更低似乎有些违背常理。

这里引入了“鸭子曲线”的概念:

鸭子曲线:由于火电和光伏发电互为替代品,当一天太阳出来后,太阳能逐渐开始替代火电,并在14点达到最大,进而导致火电受光伏发电竞争而降价。而在傍晚时太阳落山,光伏机组迅速减小发电,此时火电开始集中发电,价格迅速上升,形成了一天中典型的“两高峰,一低谷”的态势。

对比上图中加利福尼亚的数据和目前的数据,可以发现二者的形式几乎一致,这样我们又增加了几个先验信息:

  • 考虑其他新能源(尤其是光伏)的影响对预测价格意义重大

  • 光伏受天气、季节等因素影响,说明还需要借助外部天气数据辅助预测。

  • 随着时间推移和中国碳中和的发展,光伏必定会在更大程度上替代火电,因此可以猜测2024年的火电价格会进一步下降。

不同月份下的电价变化趋势

这里用到了透视表热力图

从中我们可以发现几个趋势

  • 从1月到到5月,出清电价峰谷不断扩大,价格持续走低

  • 6-8月出清电价开始回升,并在8月达到顶峰

  • 9-12月出清电价开始迅速下降,但在11-12月略有回暖

可以根据地理知识做出猜测:

  • 从冬至到夏至,日出时间不断提早,光伏发电更早抢占火电市场空间,导致火电更早在早高峰期间跌价。同时1-5月是大风期,风电也进一步驱使火电降价。

  • 6-8月为小风期,风电减弱。同时雨带迁移到北方,光伏受天气影响发电量大幅减少,火电迎来高价区(尤其是8月降水最多,火电价格最高)

  • 9-12月为大风期,风电加强。日出开始推迟,火电在低谷期的价格逐渐回升。

异常电价分析

负电价

分析负电价的出现特点,发现:1.低谷期的负电价较为明显,可能是受市场竞争导致电价中标失败,只能亏本售出。2.节假日容易出现集中的负电价,猜测是因为火电厂发电需要人为监控,假期期间大多数员工放假,火力发电量下降,出现负电价。

高电价

分析高电价的出现特点,发现:高电价主要集中在日落后,此时光伏发电下降,火电有较大的竞价空间。同时,通过对比明显高价的2022年8月3日-8月6日之间的数据,可以发现其在总需求上并不突出,甚至比后续日期中总需求更高的时间段价格还高,表明其受到了外部因素的影响。

证明利用节假日数据和外部数据可能会找到上分点。

双变量分析

本题中特征均为连续型变量,因此可以采用画散点图,计算相关系数的方法来观察两个变量的关系。

在本案例中,demand和price的相关系数为0.34,可以看出二者有较高的线性相关性。并且我们还能发现,在高负荷下,价格变动趋缓。

3.数据特点总结

综合以上,可以总结出几点:

  1. 气象状况对出清价格有较大影响

  2. 节假日对出清价格有较大影响,易于出现负值

  3. 总负荷与出清价格线性关系很高,但总体呈现分段线性的特征

  4. 不同月份/小时下的出清价格受市场竞争影响较大

  5. 碳中和不断发展,火电价格有总体下降的趋势

 4.ABM构建

总的步骤如下:

5.实践总结

Task2 主要侧重于 时间序列挖掘+ABM构建学习,通过Task2的学习,让我了解了之前从未如此详细了解过的数据特征挖掘技巧。

希望通过这次学习,能进一步提升模型表现,取得不错的预测结果。

继续加油!

  • 19
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值