目录
1.主线任务
深入探索数据特征、发掘潜在方向,以及学习ABM模型的构建方法。
2.EDA相关
概念介绍:
探索性数据分析(Exploratory Data Analysis, EDA)是数据科学和统计分析中的一个关键步骤,其主要目的是通过对数据的总结性统计和可视化手段,帮助我们理解数据的结构、模式和潜在关系。EDA 的好处有:
-
理解数据特征:通过描述性统计量和可视化手段了解数据的基本特征,如均值、方差、分布等。
-
识别数据中的模式和趋势:发现数据中的潜在模式、趋势和相关性,帮助制定后续的分析和建模策略。
-
检测异常值和缺失值:识别数据中的异常值(outliers)和缺失值(missing values),这些可能会影响模型的性能或分析的准确性。
-
检验假设:通过可视化和统计检验验证数据是否符合特定的假设或理论。
-
选择适当的模型:基于对数据的深入理解,选择适当的统计模型或机器学习算法进行进一步分析。
数据检查
timestamp | demand | price |
---|---|---|
2021-12-01 00:15:00 | 40334.18 | 350.80 |
2021-12-01 00:30:00 | 40523.15 | 350.80 |
2021-12-01 00:45:00 | 40374.74 | 350.80 |
2021-12-01 01:00:00 | 40111.55 | 350.80 |
2021-12-01 01:15:00 | 40067.50 | 348.93 |
我们主要探索时间、电力需求及出清价格间的关系。
首先,确认是否有缺失值,发现除了测试集部分,其他均无缺失。
然后,我们观察数据不难发现许多数值是相同的,许多时候,在一小时中出清价格一致。
单变量数值关系
统计指标表现
demand | price | |
count | 83520.000000 | 55392.000000 |
mean | 36595.327516 | 360.002312 |
std | 9588.519396 | 203.745125 |
min | 6993.310000 | -85.000000 |
25% | 30214.722500 | 264.142500 |
50% | 36704.025000 | 401.695000 |
75% | 42868.577500 | 471.962500 |
max | 75501.330000 | 1296.000000 |
使用 Seaborn 库绘制电力需求数值及出清价格各自的分布图。
可以看出总需求数值上接近正态分布,然而,出清价格存在许多负价格,且1-100之间的低价格较多,同时伴有一定的异常高价(800以上)。
为更好地理解数据,对这种“异常”分布的机理进行进一步探索。
分时统计特征
这里画出了不同小时的电力需求和电价。
可以发现,存在两个高峰期和一个低谷期。然而理论上10-15点都在进行大量的工业和商业活动,电价和总负荷会更低似乎有些违背常理。
这里引入了“鸭子曲线”的概念:
鸭子曲线:由于火电和光伏发电互为替代品,当一天太阳出来后,太阳能逐渐开始替代火电,并在14点达到最大,进而导致火电受光伏发电竞争而降价。而在傍晚时太阳落山,光伏机组迅速减小发电,此时火电开始集中发电,价格迅速上升,形成了一天中典型的“两高峰,一低谷”的态势。
对比上图中加利福尼亚的数据和目前的数据,可以发现二者的形式几乎一致,这样我们又增加了几个先验信息:
-
考虑其他新能源(尤其是光伏)的影响对预测价格意义重大
-
光伏受天气、季节等因素影响,说明还需要借助外部天气数据辅助预测。
-
随着时间推移和中国碳中和的发展,光伏必定会在更大程度上替代火电,因此可以猜测2024年的火电价格会进一步下降。
不同月份下的电价变化趋势
这里用到了透视表和热力图。
从中我们可以发现几个趋势
-
从1月到到5月,出清电价峰谷不断扩大,价格持续走低
-
6-8月出清电价开始回升,并在8月达到顶峰
-
9-12月出清电价开始迅速下降,但在11-12月略有回暖
可以根据地理知识做出猜测:
-
从冬至到夏至,日出时间不断提早,光伏发电更早抢占火电市场空间,导致火电更早在早高峰期间跌价。同时1-5月是大风期,风电也进一步驱使火电降价。
-
6-8月为小风期,风电减弱。同时雨带迁移到北方,光伏受天气影响发电量大幅减少,火电迎来高价区(尤其是8月降水最多,火电价格最高)
-
9-12月为大风期,风电加强。日出开始推迟,火电在低谷期的价格逐渐回升。
异常电价分析
负电价
分析负电价的出现特点,发现:1.低谷期的负电价较为明显,可能是受市场竞争导致电价中标失败,只能亏本售出。2.节假日容易出现集中的负电价,猜测是因为火电厂发电需要人为监控,假期期间大多数员工放假,火力发电量下降,出现负电价。
高电价
分析高电价的出现特点,发现:高电价主要集中在日落后,此时光伏发电下降,火电有较大的竞价空间。同时,通过对比明显高价的2022年8月3日-8月6日之间的数据,可以发现其在总需求上并不突出,甚至比后续日期中总需求更高的时间段价格还高,表明其受到了外部因素的影响。
证明利用节假日数据和外部数据可能会找到上分点。
双变量分析
本题中特征均为连续型变量,因此可以采用画散点图,计算相关系数的方法来观察两个变量的关系。
在本案例中,demand和price的相关系数为0.34,可以看出二者有较高的线性相关性。并且我们还能发现,在高负荷下,价格变动趋缓。
3.数据特点总结
综合以上,可以总结出几点:
-
气象状况对出清价格有较大影响
-
节假日对出清价格有较大影响,易于出现负值
-
总负荷与出清价格线性关系很高,但总体呈现分段线性的特征
-
不同月份/小时下的出清价格受市场竞争影响较大
-
碳中和不断发展,火电价格有总体下降的趋势
4.ABM构建
总的步骤如下:
5.实践总结
Task2 主要侧重于 时间序列挖掘+ABM构建学习,通过Task2的学习,让我了解了之前从未如此详细了解过的数据特征挖掘技巧。
希望通过这次学习,能进一步提升模型表现,取得不错的预测结果。
继续加油!