Bike Sharing 案例

通过对华盛顿自行车租赁数据的分析,预测测试集的租赁数量。关键特征包括时间、季节、天气、温度等。非注册用户在白天和周末使用更多,而注册用户在工作日频繁使用。温度与租赁数量正相关,湿度则负相关。随机森林模型显示时间是最重要的因素,对数化用户数后,得分0.45472。
摘要由CSDN通过智能技术生成

通过对华盛顿的部分自行车租赁情况数据进行分析,对测试集的自行车租赁数目进行预测。

导入数据

 
train = read.csv("train.csv")
test = read.csv("test.csv")
str(train)
str(test)

分别对两组数据进行概览,可以发现数据集存在以下特征:
$ datetime  : 日期
 $ season    : 季节,1—4分别代表春夏秋冬
 $ holiday   : 是否是假期,0代表否,1代表是(注意,假期区别于周末,类似于节假日,如圣诞节)
 $ workingday: 是否是工作日,0代表否,1代表是
 $ weather   : 天气情况,可以理解为从1—4分别代表天气越来越恶劣的情况
 $ temp      : 温度
 $ atemp     : 体感温度
 $ humidity  : 湿度
 $ windspeed : 风速情况
 $ casual    : 非注册用户数
 $ registered: 注册用户数

 $ count     : 总用户数

其中test数据集缺少后三项,即需要预测的是非注册和注册用户总数。

数据预处理

对数据集中的时间进行处理,提取出新特征。此处用用lubridate包处理时间(很实用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值