基于机器学习的“能源之星”得分预测的完整演练

本文详述了一个机器学习项目,目标是基于建筑能源数据预测‘能源之星’得分。工作流程涵盖数据清理、格式化、探索性数据分析、特征工程、模型选择与超参数调整,并最终在测试集上评估模型。
摘要由CSDN通过智能技术生成
机器学习项目的第一步,并不是确定工作流程,更不是解决数据集的问题,而是确定项目意义和目标,其至关重要

项目来源:
能源之星(Energy Star),是美国能源部和美国环保署共同推行的一项政府计划,旨在更好地保护生存环境,节约能源。
项目目标:
1.使用提供的建筑能源数据开发一个模型,该模型可以预测建筑物的能源之星得分,
2.然后解释结果以找到最能预测得分的变量。
工作流程:

  • 1.数据清理和格式化
  • 2.探索性数据分析
  • 3.特征工程和特征选择
  • 4.基于性能指标比较几种机器学习模型
  • 5.对最佳模型执行超参数调整
  • 6.在测试集上评估最佳模型
  • 7.解释模型结果
  • 8.得出结论

1. 数据清理和格式化

第一步做的事比较多而且杂,首先加载并检查数据
# 把数据读入pandas dataframe
data = pd.read_csv('Energy_and_Water_Data_Disclosure_for_Local_Law_84_2017__Data_for_Calendar_Year_2016_.csv')
# 显示表头
data.head()

数据集一共(11746行, 60列),加载数据后,我们要解决的第一个问题:理解数据
我们通常会看到每一列的第一行是各种名词,就是所谓的表头,理解这些名词的含义对于处理数据非常重要,但是我们面对的数据来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值