背景:客观评价一个区域的环境质量状况,需要综合考虑各种因素之间以及影响因素与环境质量之间错综复杂的关系,此次目的是根据空气质量中SO2,NO,NO2,NOx,PM10和PM2.5的含量建立分类预测模型,实现对空气质量的评价。采用C4.5决策树进行模型构建,并评价模型效果。
6.1数据探索
首先对各个属性的数据进行可视化,看看之间是否存在某种联系。
#空气质量图
import matplotlib as mpl
mpl.rcParams['font.sans-serif'] = [u'simHei']
mpl.rcParams['axes.unicode_minus'] = False
fig=plt.figure()
plt.subplot(711)
plt.plot(data['SO2'],linewidth=2)
plt.title(u'各指标变化趋势')
plt.ylabel(u'空气质量')
#SO2分布图
plt.subplot(712)
plt.plot(data['CLASS'],'b-',linewidth=1)
# plt.title(u'SO2