对空气质量进行预测
我们可以通过对以往数据的分析,建立模型,然后将这种模式去应用于未知的数据,进而预测结果。
数据转换
因为对于模型来说,内部进行的都是数学运算,故在进行建模之前,我们需要将类别变量转换为离散变量。
data['Coastal'] = data['Coastal'].map({
'是':1, '否':0})
基模型
首先建立一个不做任何处理的基模型,后续的操作,可以在此基础上进行改进。
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
x = data.drop(['City','AQI'], axis=1) #删除城市以及AQI两列
y = data['AQI']
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random=0)
lr = LinearRegression()
lr.fit(x_train, y_train)
print('训练集R^2值:', lr.score(x_train, y_train))
print('测试集R^2值:', lr.score(x_test, y_test))
训练集R^2值:0.4538897765064036
测试集R^2值:0.40407705623832957
线性回归预测结果
y_hat = lr.predict(x_test)
plt.figure(figsize=(15,5))
plt.plot(y_test.values, '-r'