天池工业蒸汽量预测

最新推荐文章于 2023-09-23 20:38:25 发布

weixin_45540546

最新推荐文章于 2023-09-23 20:38:25 发布

阅读量583

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45540546/article/details/109389753

版权

本文主要探讨了天池工业蒸汽量的预测问题，涉及数据的聚合、相关性分析、标准化处理、算法训练与测试、数据归一化以及异常值过滤等关键步骤，旨在通过机器学习方法提升预测准确性。

摘要由CSDN通过智能技术生成

天池工业蒸汽量

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns#画图

from sklearn.linear_model import LinearRegression,Lasso,Ridge,ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import GradientBoostingRegressor,RandomForestRegressor,AdaBoostRegressor,ExtraTreesRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor

#支持向量机
from sklearn.svm import SVR

#评价标准
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler,StandardScaler,PolynomialFeatures

数据聚合

train = pd.read_csv('./zhengqi_train.txt',sep = '\t')
test = pd.read_csv('./zhengqi_test.txt',sep = '\t')

#将train,test进行级联，级联之前进行处理
#给train，test增加一列
train['origin'] = 'train'
test['origin'] = 'test'

#将train和test进行融合
data_all = pd.concat([train,test])
print(data_all.shape)
data_all.head()

在这里插入图片描述



    
# 38个特征，将一些不重要的特征删除
# 特征分布情况，训练和测试数据特征分布不均匀，删除
plt.figure(figsize=(9,38*6))
for i,col in enumerate(data_all.columns[:-2]):
    cond = data_all['origin'] == 'train'
    train_col = data_all[col][cond] #训练数据
    cond = data_all['origin'] == 'test'
    test_col = data_all[col][cond] #测试数据
    axes = plt.subplot(38,1,i+1)
    ax = sns.kdeplot(train_col,shade = True)
    sns.kdeplot(test_col,shade = True,ax = ax)
    plt.legend(['train','test'])
    plt.xlabel(col)

在这里插入图片描述

plt.figure(figsize=(9,6))
for col in data_all.columns[:-2]:
    g = sns.FacetGrid(data_all,col = 'origin')
    g.map(sns.distplot,col)#distribute

在这里插入图片描述

drop_labels = ['V11','V17','V22','V5']
data_all.drop(drop_labels,axis = 1,inplace=True)
data_all.shape

相关性系数

# 协方差
cov = data_all.cov()
cov.head()

在这里插入图片描述

# 相关性系数
corr = data_all.corr()
corr.head()

在这里插入图片描述

# 通过相关性系数找到7个相关性不大的属性
cond = corr.loc['target'].abs() < 0.1
drop_labels = corr.loc['target'].index[cond]
# Index(['V14', 'V21', 'V25', 'V26', 'V32', 'V33', 'V34'], dtype='object')
drop_labels

# 查看了属性的分布，分布不好的删除
drop_labels = ['V14', 'V21']
data_all.drop(drop_labels,axis = 1,inplace=True)

data_all.shape

在这里插入图片描述

# 找出相关程度
plt.figure(figsize=(20, 16))  # 指定绘图对象宽度和高度
mcorr = train.corr()  # 相关系数矩阵，即给出了任意两个变量之间的相关系数
mask = np.zeros_like(mcorr, dtype=np.bool)  # 构造与mcorr同维数矩阵 为bool型

mask[np.triu_indices_from(mask)] = True  # 角分线右侧为True
# 颜色
cmap = sns.diverging_palette(220, 10, as_cmap=True)  # 返回matplotlib colormap对象
g = sns.heatmap(mcorr, mask=mask, cmap=cmap, square=True, annot=True, fmt='0.2f')  # 热力图（看两两相似度）
plt.<