基于R语言的Kaggle案例分析学习笔记(二)

本文详细介绍了使用R语言分析Kaggle上的自行车租赁数据,包括了解背景、描述性分析、特征工程、模型选择(采用随机森林算法)等步骤,探讨了租车数量与季节、天气、湿度、风速等因素的关系,并展示了如何处理数据和构建预测模型。
摘要由CSDN通过智能技术生成

共享自行车需求预测

本案例提纲:

1、了解题目背景

2、描述性分析

3、特征工程

4、模型选择

5、基于R实现模型

1、题目背景及要求
题目背景:

        大红色的“首都自行车共享”,2013年11月开始,出现在美国首都华盛顿哥伦比亚,设立了一百多个无人看管的自行车出租点。政府积极鼓励地方发展节约能源的交通方法,希望人民生活更方便、更健康。由此,联邦政府运输部资助600万美元,启动了“首都自行车共享”项目。在美国,骑车人和行人的权益都受到政府和各方保护,有时在优先权上更甚于开汽车,在不少城市都设有安全步道系统。

题目要求

        数据来源:华盛顿自行车共享计划中的自行车租赁数据

        分析共享自行车和天气之间的关系

        评价标准:预测的出租书量与真实的出租数量

以下是本题的数据字典:

英文字段 中文字段 说明
datetime 日期时间 小时日期+时间戳
season 季节 1=春季,2=夏季,3=秋季,4=冬季
holiday 假期 是否被认为是假日
workingday 工作日 是周末还是假期
weather 天气 1:干净,少云,部分多云,部分多云
2:雾+多云,雾+破碎的云雾,雾+少云,雾
3:小雪,小雨+雷暴+分散的云彩,小雨+分散云
4:大雨+冰粒
temp 温度 摄氏温度
atemp atemp “感觉”摄氏温度
humidity 湿度 相对湿度
windspeed 风速 风速
casual 非注册 新的非注册用户租车数
registered 注册 新的注册用户租金车数
count 数量 总出租的数

2、描述性分析

通过对季节、天气、湿度、风速、假期、工作日、温度、体感温度的租车数量的直方图,观察租车数的影响因素,并提出假设。

                                                                    不同季节租车数的直方图

                                                             不同天气租车数直方图

                                               

首尔自行车数据分析 R中首尔共享单车需求数据集的回归分析 • 执行模型分析以预测每小时所需的自行车数量,以确保租赁自行车的稳定供应 • 使用 R、机器学习和统计建模技术 导言:数据集的背景/动机 目前,许多主要城市都引入了租赁自行车,以提高机动性、舒适性和环保交通。重要的是要让公众在适当的时候可以使用和使用租赁自行车,因为这可以缩短等待时间。最终,为城市提供稳定的租赁自行车供应是一个主要问题。有许多因素,如温度、一天中的时间、假期、季节等,可能会影响自行车的可用性。关键部分是预测每小时所需的自行车数量,以稳定租赁自行车的供应。 使用天气数据[1]的首尔自行车共享需求预测的基于规则的模型使用了两个数据集——首尔自行车和首都自行车共享计划。它给出了5个统计模型的结果,这些模型使用重复交叉验证方法用优化的超参数进行训练,并使用测试集进行评估:(a)立方体(b)正则化随机森林(c)分类和回归树(d)K近邻(e)条件推理树。使用R2、均方根误差、平均绝对误差和变异系数等多重评估指标来衡量回归模型的预测性能。结果表明,基于规则的CUBIST模型能够解释汉城自行车测试集中约95%的方差(R2)。对所有开发的模型进行了变量重要性分析,以分析最重要的变量。这些模型表明,温度和一天中的小时数是小时租赁自行车需求预测中最有影响的变量。 Cubist模型是在Quinlan的M5模型树的基础上引入的,该模型树创建了一系列“if-after-after”规则,其中每个规则都有一个相关的线性多元模型。立体主义模型的好处在于,它是一种可行的回归方法,可以应用于各种问题。 在预测自行车共享需求的回归模型[2]中,他们对汉城自行车数据集应用了回归模型,得出的值为0.567,表明线性回归能够确定56.7%的自行车租赁数量变化。研究论文指出,低R平方值的回归模型可能是非常好的模型,原因有几个,因为某些研究领域存在大量无法解释的内在差异。在这些区域,R2值必然较低。 如果一个人的R平方值较低,但自变量在统计上具有显著性,那么仍然可以得出关于变量之间关系的重要结论。正如本文所观察到的,0.56是一个相对较低的值,但统计显著性有助于更好地了解影响自行车租赁数量的因素。从数据集中提取更好的结果和模式的进一步范围包括实现高级算法,如分类树、随机森林、K近邻。 在这个项目中,我们的目标是使用统计数据来确定哪些因素导致每小时租赁自行车的最佳供应。例如,如果温度太高,能见度差,我们将供应少量的自行车,因为需求会减少。如果我们的模型成功,它将允许自行车所有者和管理者决定在任何给定时间租用的自行车数量。自行车使用者也将体验到友好舒适的服务。
Cyclistic 是一家虚构的公司,提供自行车共享设施。该公司有两大类骑手:休闲骑手和年度会员。休闲骑手是使用单程通行证和全天通行证的人。年度会员有一年的通行证可以使用自行车。 描述性分析 我已经分别使用每个月的数据透视表进行了初步分析。 数据透视表 1:这描述了每个工作日的骑行次数和平均骑行时长。 数据透视表 2:这分析了每种可骑行类型(即停放自行车、经典自行车和电动自行车)的骑行次数和平均骑行长度。 数据透视表 3:它比较了每个成员类型(即休闲和年度)的乘车次数和平均乘车时间。 数据透视表 4:这显示了整个月的平均和最大骑行长度。 数据透视表 5:该表记录了每个起点站的骑行次数和平均骑行长度。 我已经整理了每个月的这些摘要,并放在一个电子表格中,以确定每月和季节性的分析。我发现的一些有趣的事实和趋势如下: 最长的骑行发生在 2021 年 6 月至 7 月,创下大约 38 天的记录! 一年中的几个月,即 5 月到 9 月,自行车骑行的次数很高,7 月本身记录了 822k 的峰值。 11 月至 2 月见证了低乘车人数。2 月创下了最低的降幅,仅有 5 万次骑行。 Streeter Dr & Grand Ave 是最受欢迎的起点站,一个月内乘坐次数高达 15,000 次。 每月比较 其他一些重要的观察结果是: 经典自行车是最受欢迎的选择,每 3 次骑行中就有 2 次使用经典自行车。 停放自行车是骑行超过 1 小时的人的最爱。 休闲骑手的平均骑行长度高于年度会员。几乎是后者的两倍。 周六和周日的骑行次数最多。这两天的平均骑行时间也创下了历史新高。 使用 SQL 进行年视图分析 我将使用 SQL 合并所有的月度数据来做一个整体的年度分析。我将使用 Microsoft SQL Server 来执行所有数据库操作。 所有分步查询都可以在这里找到bikesharecasestudy.sql。请务必查看bikeShareCaseStudyReport.docx以查看所有重要数据和输出。 该分析揭示了年度会员和休闲骑手之间的一些有趣趋势。以下是分析。 年末会员的乘车份额增加(超过 50%),加上临时会员的乘车份额下降。最大值记录在 1 月 (80%)。 休闲骑手的平均骑行时长是年度骑手的两倍多。 年度会员在一年内记录的乘车次数多于休闲骑手。 周六的骑行次数和平均骑行时长最高,其次是周六和周五。周末生意兴隆。 经典自行车是这两种骑手中最喜欢的类型。停靠自行车是最不受欢迎的。此外,休闲会员选择经典自行车进行长途骑行。 临时会员通常更喜欢周末而不是工作日。年度车手则相反,他们在所有日子里的人数都很高,周日大幅下降。 使用 R 进行年视图分析 对于使用 R 的分析,我使用了 4 个季度的数据 - 2019 年的 Q2、Q3、Q4 和 2020 年的 Q1 。可以在此处找到用于清理、合并、分析和可视化的脚本R_script.R。 分享 此阶段是将要向利益相关者展示的重要和相关信息可视化。 年度会员和休闲骑手之间最显着的区别之一是他们在工作日的运营模式。 有报告
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值