机器学习项目的第一步,并不是确定工作流程,更不是解决数据集的问题,而是确定项目意义和目标,其至关重要
项目来源:
能源之星(Energy Star),是美国能源部和美国环保署共同推行的一项政府计划,旨在更好地保护生存环境,节约能源。
项目目标:
1.使用提供的建筑能源数据开发一个模型,该模型可以预测建筑物的能源之星得分,
2.然后解释结果以找到最能预测得分的变量。
工作流程:
- 1.数据清理和格式化
- 2.探索性数据分析
- 3.特征工程和特征选择
- 4.基于性能指标比较几种机器学习模型
- 5.对最佳模型执行超参数调整
- 6.在测试集上评估最佳模型
- 7.解释模型结果
- 8.得出结论
1. 数据清理和格式化
第一步做的事比较多而且杂,首先加载并检查数据
# 把数据读入pandas dataframe
data = pd.read_csv('Energy_and_Water_Data_Disclosure_for_Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv')
# 显示表头
data.head()
数据集一共(11746行, 60列),加载数据后,我们要解决的第一个问题:理解数据
我们通常会看到每一列的第一行是各种名词,就是所谓的表头,理解这些名词的含义对于处理数据非常重要,但是我们面对的数据来