案例来源:阿里天池大赛 工业蒸汽量预测_学习赛_赛题与数据_天池大赛-阿里云天池
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
现有经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),根据锅炉的工况,预测产生的蒸汽量。
数据说明
案例提供两个数据集,一个用于训练模型(zhengqi_train.txt),包含V0~V37
共38个特征字段,表示锅炉的物理参数,以及target字段,表示产生的蒸汽量;另一个用于测试模型(zhengqi_test.txt),包含V0~V37
共38个特征字段,但没有target字段。我们的目的是采用适当的方法,预测测试数据集各行的target值。
思考:如何完成?
- 各特征变量表示什么?
- 应当使用所有的特征变量吗? 是不是数据越多越好?
- 可以使用哪些预测模型?
- 如何选择模型?
library(tidyverse) library(psych) library(cowplot) zhengqi_train_raw <- read_csv("E:/lecture/运营大数据分析/zhengqi_train.csv") zhengqi_train <- zhengqi_train_raw zhengqi_test_raw <- read_csv("E:/lecture/运营大数据分析/zhengqi_test.csv") zhengqi_test <- zhengqi_test_raw
使用年份、月份、日期出发日期列格式化数据框。dep_time、arr_time实际出发和到达时间(格式为HHMM或HMM),本地时区。sched_dep_time、sched_arr_time计划出发和到达时间(格式为HHMM或HMM),本地时区。dep_delay、arr_delay出发和到达延误时间,单位为分钟。负数表示提前出发/到达。carrier两个字母的航空公司缩写。查看航空公司以获取名称。flight航班号。tailnum飞机尾部编号。参见planes以获取其他元数据。origin、dest起点和目的地。参见airports以获取其他元数据。air_time在空中的时间,以分钟为单位。距离机场之间的距离,以英里为单位。hour、minute计划起飞时间分解为小时和分钟。time_hour计划起飞日期和时间作为POSIXct日期。与起点一起,可用于将航班数据连接到天气数据。
column name | comment |
---|---|
year, month, day | 航班的年、月、日 |
dep_time | departure time,起飞时刻。格式为:小时+分钟,例如517表示5:17。 |
sched_dep_time | scheduled departure time,计划起飞时刻 |
dep_delay | departure delay,起飞延误时长,等于dep_time-sched_dep_time |
arr_time, sched_arr_time, arr_delay | 抵达时间(实际值、计划值、延误值) |
hour, minute | 计划起飞时刻,与sched_dep_time的值一致 |
time_hour | 计划起飞时刻(只有日期和小时,POSIXct标准时间格式) |
air_time | 飞行时长(单位:分钟) |
carrier | 航空公司(简称) |
tailnum | 飞机的ID(tail number) |
flight | 航班编号 |
origin, dest | 出发地和目的地(简称) |
distance | 航线长度(单位:mile) |