通过对华盛顿的部分自行车租赁情况数据进行分析,对测试集的自行车租赁数目进行预测。
导入数据
train = read.csv("train.csv")
test = read.csv("test.csv")
str(train)
str(test)
分别对两组数据进行概览,可以发现数据集存在以下特征:
$ datetime : 日期
$ season : 季节,1—4分别代表春夏秋冬
$ holiday : 是否是假期,0代表否,1代表是(注意,假期区别于周末,类似于节假日,如圣诞节)
$ workingday: 是否是工作日,0代表否,1代表是
$ weather : 天气情况,可以理解为从1—4分别代表天气越来越恶劣的情况
$ temp : 温度
$ atemp : 体感温度
$ humidity : 湿度
$ windspeed : 风速情况
$ casual : 非注册用户数
$ registered: 注册用户数
$ count : 总用户数
其中test数据集缺少后三项,即需要预测的是非注册和注册用户总数。
数据预处理
对数据集中的时间进行处理,提取出新特征。此处用用lubridate包处理时间(很实用