原始数据在这里
1.观察数据
首先,用Pandas打开数据,并进行观察。
import numpy
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv('Folds5x2_pp.csv')
data.head()
会看到数据如下所示:
这份数据代表了一个循环发电厂,每个数据有5列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。我们不用纠结于每项具体的意思。
我们的问题是得到一个线性的关系,对应PE是样本输出,而AT/V/AP/RH这4个是样本特征, 机器学习的目的就是得到一个线性回归模型,即: PE=θ0+θ1∗AT+θ2∗V+θ3∗AP+θ4∗RH 而需要学习的,就是θ0,θ1,θ2,θ3,θ4这5个参数。
接下来对数据进行归一化处理:
data = (data - data.mean())/data.std()
因为回归线的截距θ0是不受样本特征影响的,因此我们在此可以设立一个X0=1,使得回归模型为:
PE=θ0*X0+θ1∗AT+θ2∗V+θ3∗AP+θ4∗RH