LSTM 多变量单步预测空气质量（1---》1）

最新推荐文章于 2024-06-24 09:08:27 发布

nsq_ai

最新推荐文章于 2024-06-24 09:08:27 发布

阅读量3k

点赞数 5

分类专栏：时间序列预测机器学习算法研究 Python基础学习文章标签： lstm 深度学习时间序列神经网络

本文链接：https://blog.csdn.net/weixin_45063703/article/details/120053939

版权

Python基础学习同时被 3 个专栏收录

123 篇文章 17 订阅

订阅专栏

机器学习算法研究

39 篇文章 27 订阅

订阅专栏

时间序列预测

25 篇文章 66 订阅

订阅专栏

前言

LSTM 航空乘客预测单步预测的两种情况。简单运用LSTM 模型进行预测分析。
加入注意力机制的LSTM 对航空乘客预测采用了目前市面上比较流行的注意力机制，将两者进行结合预测。
多层 LSTM 对航空乘客预测简单运用多层的LSTM 模型进行预测分析。
双向LSTM 对航空乘客预测双向LSTM网络对其进行预测。
MLP多层感知器对航空乘客预测简化版使用MLP 对航空乘客预测
CNN + LSTM 航空乘客预测采用的CNN + LSTM网络对其进行预测。
ConvLSTM 航空乘客预测采用ConvLSTM 航空乘客预测
LSTM的输入格式和输出个数说明中对单步和多步的输入输出格式进行了解释
LSTM 单变量多步预测航空乘客简单版
LSTM 单变量多步预测航空乘客复杂版

本文主要是用LSTM 前一个数据点的多变量预测下一个时间点的空气质量。

1 数据集

链接: https://pan.baidu.com/s/1G2uJVIYcRfRl_AOZFwlw6w 提取码: uf95

1.1 原始数据集格式

在这里插入图片描述

数据集的内容及其含义：

1.No 行数
2.year 年
3.month 月
4.day 日
5.hour 小时
6.pm2.5 PM2.5浓度
7.DEWP 露点
8.TEMP 温度
9.PRES 大气压
10.cbwd 风向
11.lws 风速
12.ls 累积雪量
13.lr 累积雨量

1.2 处理后的数据集

打印出来的数据集格式

                     pollution  dew  temp   press wnd_dir  wnd_spd  snow  rain
date                                                                          
2010-01-02 00:00:00      129.0  -16  -4.0  1020.0      SE     1.79     0     0
2010-01-02 01:00:00      148.0  -15  -4.0  1020.0      SE     2.68     0     0
2010-01-02 02:00:00      159.0  -11  -5.0  1021.0      SE     3.57     0     0
2010-01-02 03:00:00      181.0   -7  -5.0  1022.0      SE     5.36     1     0
2010-01-02 04:00:00      138.0   -7  -5.0  1022.0      SE     6.25     2     0

将日期时间信息整合为一个日期时间，以便我们可以将其用作Pandas的索引。
“No”列被删除，然后为每列指定更清晰的名称。最后，将NA值替换为“0”值，并删除前24小时。
我们需要快速显示前24小时的pm2.5的NA值。因此，我们需要删除第一行数据。在数据集中还有几个分散的“NA”值；我们现在可以用0值标记它们。

代码：

from pandas import read_csv
from datetime import datetime
# load data
def parse(x):
	return datetime.strptime(x, '%Y %m %d %H')

# parse_dates参数： 将csv中的时间字符串转换成日期格式
dataset = read_csv('raw.csv',  parse_dates = [['year', 'month', 'day', 'hour']], index_col=0, date_parser=parse)

dataset.drop('No', axis=1, inplace=True)
# manually specify column names
dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']
dataset.index.name = 'date'
# mark all NA values with 0
dataset['pollution'].fillna(0, inplace=True)
# drop the first 24 hours
dataset = dataset[24:]
# summarize first 5 rows
print(dataset.head(5))
# save to file
dataset.to_csv('pollution.csv')

数据格式处理之后，可以简单的对每列进行绘图。

加载“pollution.csv”文件，并对除了类别型特性“风速”的每一列数据分别绘图。
代码：

# load dataset
dataset = read_csv('pollution.csv', header=0, index_col=0)
values = dataset.values
# specify columns to plot
groups = [0, 1, 2, 3, 5, 6, 7]
i = 1
# plot each column
pyplot.figure()
for group in groups:
	pyplot.subplot(len(groups), 1, i)
	pyplot.plot(values[:, group])
	pyplot.title(dataset.columns[group], y=0.5, loc='right')
	i += 1
pyplot.show()

在这里插入图片描述

2 程序

2.1 转为监督学习格式

# convert series to supervised learning
def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):
    n_vars = 1 if type(data) is list else data.shape[1]
    df = DataFrame(data)
    cols, names = list(), list()
    # input sequence (t-n, ... t-1)
    for i in range(n_in, 0, -1):
        cols.append(df.shift(i))
        names += [('var%d(t-%d)' % (j+1, i)) for j in range(n_vars)]
    # forecast sequence (t, t+1, ... t+n)
    for i in range(0, n_out):
        cols.append(df.shift(-i))
        if i == 0:
            names += [('var%d(t)' % (j+1)) for j in range(n_vars)]
        else:
            names += [('var%d(t+%d)' % (j+1, i)) for j in range(n_vars)]
    # put it all together
    agg = pd.concat(cols, axis=1)
    agg.columns = names
    # drop rows with NaN values
    if dropnan:
        agg.dropna(inplace=True)
    return agg
 
# load dataset
dataset = read_csv('pollution.csv', header=0, index_col=0)
values = dataset.values
# integer encode direction
encoder = LabelEncoder()
values[:,4] = encoder.fit_transform(values[:,4])
# ensure all data is float
values = values.astype('float32')
# normalize features
scaler = MinMaxScaler(feature_range=(0, 1))
scaled = scaler.fit_transform(values)
# frame as supervised learning
reframed = series_to_supervised(scaled, 1, 1)
# drop columns we don't want to predict
reframed.drop(reframed.columns[[9,10,11,12,13,14,15]], axis=1, inplace=True)
print(reframed.head())

打印转换后的数据集的前5行。我们可以看到8个输入变量（输入序列）和1个输出变量（当前小时的污染水平）

 var1(t-1)  var2(t-1)  var3(t-1)  var4(t-1)  var5(t-1)  var6(t-1)  \
1   0.129779   0.352941   0.245902   0.527273   0.666667   0.002290   
2   0.148893   0.367647   0.245902   0.527273   0.666667   0.003811   
3   0.159960   0.426471   0.229508   0.545454   0.666667   0.005332   
4   0.182093   0.485294   0.229508   0.563637   0.666667   0.008391   
5   0.138833   0.485294   0.229508   0.563637   0.666667   0.009912   

   var7(t-1)  var8(t-1)   var1(t)  
1   0.000000        0.0  0.148893  
2   0.000000        0.0  0.159960  
3   0.000000        0.0  0.182093  
4   0.037037        0.0  0.138833  
5   0.074074        0.0  0.109658

2.2 构造LS TM 模型

数据集划分：训练集和测试集

# split into train and test sets
values = reframed.values
n_train_hours = 365 * 24
train = values[:n_train_hours, :]
test = values[n_train_hours:, :]
# split into input and outputs
train_X, train_y = train[:, :-1], train[:, -1]
test_X, test_y = test[:, :-1], test[:, -1]
# reshape input to be 3D [samples, timesteps, features]
train_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))
test_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1]))
print(train_X.shape, train_y.shape, test_X.shape, test_y.shape)

(8760, 1, 8) (8760,) (35039, 1, 8) (35039,)

构建模型

# design network
model = Sequential()
#model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2])))
#model.add(Dense(50, activation='relu', input_dim = 8))
model.add(SimpleRNN(50, input_shape=(train_X.shape[1], train_X.shape[2])))
model.add(Dense(1))
model.compile(loss='mae', optimizer='adam')
# fit network
history = model.fit(train_X, train_y, epochs=50, batch_size=72, validation_data=(test_X, test_y), verbose=2, shuffle=False)

# plot history
pyplot.plot(history.history['loss'], label='train')
pyplot.plot(history.history['val_loss'], label='test')
pyplot.legend()
pyplot.show()

结果展示：

Epoch 1/50
122/122 - 1s - loss: 0.1125 - val_loss: 0.1060
Epoch 2/50
122/122 - 0s - loss: 0.0529 - val_loss: 0.1277
Epoch 3/50
122/122 - 0s - loss: 0.0395 - val_loss: 0.1122
Epoch 4/50
。。。。

损失函数图像
在这里插入图片描述

模型评估

# make a prediction
yhat = model.predict(test_X)
test_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))
# invert scaling for forecast
inv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1)
inv_yhat = scaler.inverse_transform(inv_yhat)
inv_yhat = inv_yhat[:,0]
# invert scaling for actual
test_y = test_y.reshape((len(test_y), 1))
inv_y = concatenate((test_y, test_X[:, 1:]), axis=1)
inv_y = scaler.inverse_transform(inv_y)
inv_y = inv_y[:,0]
# calculate RMSE
rmse = sqrt(mean_squared_error(inv_y, inv_yhat))
print('Test RMSE: %.3f' % rmse)

预测结果：
Test RMSE: 27.103

3 总结

LSTM 多变量预测下一个点位数据，个人感觉和LSTM 前几个数据预测下一个数据很像，只不过是前几个数据点数据转换为变量。感兴趣的可以交流一下
数据预处理的方式，转为监督学习的操作，模型构建
多变量单步预测下一个点位的空气质量，前一步预测下一步的数据，时间步长为1，将八个变量作为一个整体看待，feature值为八个变量

nsq_ai

关注

5
点赞
踩
69

收藏

觉得还不错? 一键收藏
打赏
2
评论
LSTM 多变量单步预测空气质量（1---》1）

前言LSTM 航空乘客预测单步预测的两种情况。简单运用LSTM 模型进行预测分析。加入注意力机制的LSTM 对航空乘客预测采用了目前市面上比较流行的注意力机制，将两者进行结合预测。多层 LSTM 对航空乘客预测简单运用多层的LSTM 模型进行预测分析。双向LSTM 对航空乘客预测双向LSTM网络对其进行预测。MLP多层感知器对航空乘客预测简化版使用MLP 对航空乘客预测CNN + LSTM 航空乘客预测采用的CNN + LSTM网络对其进行预测。ConvLSTM 航空乘客预测采用Co
复制链接

扫一扫