【Python】家庭用电数据分析Prophet预测

数据集:Household Electricity Consumption | Kaggle

目录

数据集简介

探索性分析

Prophet预测

Prophet模型

Prophet理念

Prophet优点


数据集简介

240000-household-electricity-consumption-records数据集包含了一个家庭6个月的用电数据,收集于2007年1月至2007年6月。这些数据包括全球有功功率、全球无功功率、电压、全球强度、分项计量1(厨房)、分项计量2(洗衣房)和分项计量3(电热水器和空调)等信息。该数据集共有260,640个测量值。

列名说明
Date日期
Time时间
Globalactivepower该家庭所消耗的总有功功率(千瓦)
Globalreactivepower该家庭消耗的总无功功率(千瓦)
Voltage向家庭输送电力的电压(伏特)
Global_intensity输送到家庭的平均电流强度(安培)
Submetering1厨房消耗的有功功率(千瓦)
Submetering2洗衣房所消耗的有功功率(千瓦)
Submetering3电热水器和空调所消耗的有功功率(千瓦)

探索性分析

导入数据集并读取头部 

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data_path = "./household_power_consumption.csv"
df = pd.read_csv(data_path,index_col='index')
df.head()

面向特定客户时可将列名替换为中文

# # 将列名替换为中文
# df.rename(columns={
#     'Date': '日期',
#     'Time': '时间',
#     'Global_active_power': '有功功率',
#     'Global_reactive_power': '无功功率',
#     'Voltage': '电压',
#     'Global_intensity': '电流',
#     'Sub_metering_1': '厨房的有功功率',
#     'Sub_metering_2': '洗衣房的有功功率',
#     'Sub_metering_3': '电热水器和空调的有功功率',
#     },inplace=1)
# # 再次预览前5行数据
# df.head()  

对DataFrame 中的数值列进行统计

df.describe()

 查看DataFrame中各列的数据类型

df.dtypes

转换数据格式

from tqdm.auto import tqdm
from ipywidgets import HBox, FloatProgress, HTML
# 将'Date'列转换为日期时间格式
df['Date']=pd.DatetimeIndex(df['Date'])
# 定义需要转换为数字的列
make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
# 定义一个函数,将字符串转换为浮点数,如果转换失败则返回0
def floating(string):
    try:
        return float(string)
    except:
        return float(0)
# 遍历需要转换为数字的列
for column in tqdm(make_em_num):
    # 将列中的每个元素应用floating函数,转换为浮点数
    df[column] = df[column].apply(lambda item: floating(item))
# 创建一个水平布局,包含一个浮点进度条和一个HTML元素
HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))

 查看转换效果,转换后的数据类型

df.dtypes

 查看转换效果,转换后的数据头部

df.head()

绘制相关系数热力图。使用Seaborn库中的heatmap函数来绘制一个热力图,展示数据框df中各列之间的相关性

  • df.drop表示删除名为index、Date和Time的列。axis=1表示按列删除。
  • annot=True,使得热力图上显示相关系数的具体数值。
import seaborn as sns
sns.heatmap(df.drop(['Date','Time'], axis=1).corr(), annot=True)

 

Prophet预测

https://github.com/facebook/prophet

Prophet是一种基于可加性模型预测时间序列数据的程序,其中非线性趋势可以按年度、每周和每日的季节性,以及假日效应进行拟合。它最适合于具有强烈季节效应的时间序列和有几个季节的历史数据。Prophet对于缺失的数据和趋势的变化是稳健的,并且通常能够很好地处理异常值。

获取DataFrame的形状 

from prophet import Prophet
df.shape

通过 Prophet 对有功功率和电压进行预测

# 从数据框中随机抽取10000行
df=df.sample(n=10000)
# 定义一个函数,用于使用Prophet模型进行预测
def prophet_forecaster(data, x, y, period=100):
    # 创建一个新的数据框,包含日期和目标变量
    new_df = pd.DataFrame(columns=['ds', 'y'])
    new_df['ds']= data[x]
    new_df['y'] = data[y]
    # 创建一个Prophet模型
    model = Prophet()
    # 使用新的数据框进行模型训练
    model.fit(new_df)
    # 创建未来日期的数据框
    future_dates = model.make_future_dataframe(periods=period)
    # 使用模型进行预测
    forecast = model.predict(future_dates)
    # 绘制预测结果
    model.plot(forecast)
    # 设置图表标题
    plt.title(f"Forecasting on the next {period} days for {y}")
# 使用Prophet模型对Global_active_power进行预测
prophet_forecaster(df, x='Date', y='Global_active_power', period=180)
# 使用Prophet模型对Global_reactive_power进行预测
prophet_forecaster(df, x='Date', y='Global_reactive_power', period=180)
# 使用Prophet模型对Voltage进行预测
prophet_forecaster(df, x='Date', y='Voltage', period=180)
# 使用Prophet模型对Global_intensity进行预测
prophet_forecaster(df, x='Date', y='Global_intensity', period=180)

未来半年有功功率预测结果:

未来半年无功功率预测结果 

未来半年电压预测结果:

未来半年电流预测结果

Prophet模型

  • g(t) 表示趋势函数,能够拟合非周期性变化;

  • s(s)表示周期性变化,例如每周,每年,每季节等;

  • h(t)表示假期变化,节假日通常为一天或多天;

  • ϵt为噪声项,表示随机无法预测的波动,通常假设ϵt是高斯的。

Prophet理念

  • 趋势中有两个增长函数,分别是分段线性函数(linear)和非线性逻辑回归函数(logistic)。通过从数据中选择变化点,Prophet自动探测趋势变化;

  • 使用傅里叶级数建模每年的季节分量;

  • 使用虚变量代表过去,将来的相同节假日,属于节假日就为1,不属于就是0;

  • 用户提供的重要节假日列表

  • Modeling:建立时间序列模型。分析师根据预测问题的背景选择一个合适的模型。

  • Forecast Evaluation:模型评估。根据模型对历史数据进行仿真,在模型的参数不确定的情况下,我们可以进行多种尝试,并根 据对应的仿真效果评估哪种模型更适合。

  • Surface Problems:呈现问题。如果尝试了多种参数后,模型的整体表现依然不理想,这个时候可以将误差较大的潜在原因呈现给分析师。

  • Visually Inspect Forecasts:以可视化的方式反馈整个预测结果。当问题反馈给分析师后,分析师考虑是否进一步调整和构建模型。

Prophet优点

  • 准确,快速,高效率地拟合,可以针对所需关键数据进行交互式探索
  • 集成全自动流程,无需人工操作就能对混乱的数据做出合理的预测
  • 可调整的预测,预测模型的参数非常容易解释,可用业务知识改进或调整预测
  • 对缺失值和变化剧烈的时间序列和离散值有很好的鲁棒性,不需要填补缺失值;
好的,让我来为您演示某地区用电量数据的分析。 首先,我们需要有一些用电量的数据。假设我们有某地区在过去一年中每天的用电量数据,我们可以将其导入到一个数据分析工具中(例如Excel或Python的Pandas库),然后进行分析。 首先,我们可以计算出该地区整个年度的平均电量。假设该地区每天的用电量数据存储在一个名为“electricity.csv”的文件中,我们可以使用Python的Pandas库来进行计算,代码如下: ``` python import pandas as pd # 导入数据 data = pd.read_csv('electricity.csv') # 计算平均电量 average = data['electricity'].mean() # 输出结果 print('该地区整个年度的平均电量为:', average) ``` 接下来,我们可以画出该地区每个月的用电量情况,以便我们了解该地区用电量的季节性变化。我们可以使用Python中的Matplotlib库来进行绘图,代码如下: ``` python import pandas as pd import matplotlib.pyplot as plt # 导入数据 data = pd.read_csv('electricity.csv') # 将日期列转换为日期时间格式 data['date'] = pd.to_datetime(data['date']) # 按月份分组并计算总用电量 monthly_data = data.groupby(data['date'].dt.month)['electricity'].sum() # 绘制柱状图 plt.bar(monthly_data.index, monthly_data.values) plt.xlabel('Month') plt.ylabel('Electricity Consumption') plt.show() ``` 最后,我们可以对该地区每天用电量的变化进行预测。我们可以使用Python中的Prophet库,它是由Facebook开发的一种时间序列预测工具。代码如下: ``` python import pandas as pd from fbprophet import Prophet # 导入数据 data = pd.read_csv('electricity.csv') # 将日期列转换为日期时间格式 data['date'] = pd.to_datetime(data['date']) # 重命名数据列 data = data.rename(columns={'date': 'ds', 'electricity': 'y'}) # 创建Prophet模型 model = Prophet() # 拟合模型 model.fit(data) # 创建未来日期的数据框 future = model.make_future_dataframe(periods=365) # 进行预测 forecast = model.predict(future) # 绘制预测结果 model.plot(forecast) plt.xlabel('Date') plt.ylabel('Electricity Consumption') plt.show() ``` 以上就是对某地区用电量数据的分析和预测的一个简单演示。希望对您有所帮助!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

F_D_Z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值