Datawhale AI夏令营——电力需求预测赛-CSDN博客

本文链接：https://blog.csdn.net/weixin_47389939/article/details/140507931

问题描述：给定多个房屋对应电力消耗历史N天的相关序列数据等信息，预测房屋对应电力的消耗

属于时间序列数据预测类型，可以考虑使用特征工程、ARIMA模型、随机森林等方法。

数据预处理：一般在处理时间序列数据时，除了填充缺失值、处理异常值外，还需要检测数据是否有季节性、是否平稳，并去除季节性等影响使得数据保持平稳无噪声。

特征工程：

如果数据的日期含有年月日，可以对日期序列进行拆分，比较周六日与工作日的区别是否显著，以及各个季节的区别是否显著，进而可以用上周六日的数据预测本周六日的数据等等，但是本次比赛的数据没有详细的时间，因此放弃这种方法。转而构建历史平移特征和窗口统计特征。将数据依次向后移动10、11、12……29天，构建过去10天到29天的数据特征。

# 合并训练数据和测试数据，并进行排序
data = pd.concat([test, train], axis=0, ignore_index=True)
data = data.sort_values(['id','dt'], ascending=False).reset_index(drop=True)

# 历史平移
for i in range(10,30):
    data[f'last{i}_target'] = data.groupby(['id'])['target'].shift(i)
    
# 窗口统计
data[f'win3_mean_target'] = (data['last10_target'] + data['last11_target'] + data['last12_target']) / 3

# 进行数据切分
train = data[data.target.notnull()].reset_index(drop=True)
test = data[data.target.isnull()].reset_index(drop=True)

# 确定输入特征
train_cols = [f for f in data.columns if f not in ['id','target']]

模型训练：使用Lightgbm模型来训练并预测数据

def time_model(lgb, train_df, test_df, cols):
    # 训练集和验证集切分
    trn_x, trn_y = train_df[train_df.dt>=31][cols], train_df[train_df.dt>=31]['target']
    val_x, val_y = train_df[train_df.dt<=30][cols], train_df[train_df.dt<=30]['target']
    # 构建模型输入数据
    train_matrix = lgb.Dataset(trn_x, label=trn_y)
    valid_matrix = lgb.Dataset(val_x, label=val_y)
    # lightgbm参数
    lgb_params = {
        'boosting_type': 'gbdt',
        'objective': 'regression',
        'metric': 'mse',
        'min_child_weight': 5,
        'num_leaves': 2 ** 5,
        'lambda_l2': 10,
        'feature_fraction': 0.8,
        'bagging_fraction': 0.8,
        'bagging_freq': 4,
        'learning_rate': 0.05,
        'seed': 2024,
        'nthread' : 16,
        'verbose' : -1,
    }
    # 训练模型
    model = lgb.train(lgb_params, train_matrix, 50000, valid_sets=[train_matrix, valid_matrix], 
                      categorical_feature=[], verbose_eval=500, early_stopping_rounds=500)
    # 验证集和测试集结果预测
    val_pred = model.predict(val_x, num_iteration=model.best_iteration)
    test_pred = model.predict(test_df[cols], num_iteration=model.best_iteration)
    # 离线分数评估
    score = mean_squared_error(val_pred, val_y)
    print(score)
       
    return val_pred, test_pred
    
lgb_oof, lgb_test = time_model(lgb, train, test, train_cols)

# 保存结果文件到本地
test['target'] = lgb_test
test[['id','dt','target']].to_csv('submit.csv', index=None)

得分为259.7，后续考虑使用ARIMA模型来预测