一、项目说明
该项目来源于Kaggle,旨在建模来预测纽约出租车在行程中的总行驶时间。
在建模预测的过程中,我们可以顺便探索纽约市民打车出行习惯及其他有效信息。
附kaggle项目链接 https://www.kaggle.com/c/nyc-taxi-trip-duration/overview
【注】CDSN博客编辑器体验不佳,本文排版格式失效且图片丢失。
如需美观及完整,敬请移步知乎专栏。链接:https://zhuanlan.zhihu.com/p/65488432
本文原定内容结构说明:
1、先参考简书帖子《纽约出租车大数据探索》完成一部分探索,帖子没有源代码,所以我会根据帖子思路,自行写出代码。帖子网址 https://www.jianshu.com/p/1da53849a314
2、按照帖子文末提出的可以进一步拓展的探索方向,自行深入探索。
3、kaggle比赛目标之预测行程持续时间,另外再开帖子叙述。本文不赘述。
本文分析的技术实现过程,已发布至个人CDNS博客,详见:
《【Python】New York City Taxi Trip Duration纽约出租车大数据探索(技术实现过程)》
https://blog.csdn.net/weixin_44216391/article/details/90115972
二、探索分析
帖子的结构为五部分:
1、提出问题— 2、理解数据— 3、数据清理— 4、数据分析— 5、得出结论
(一)、提出问题(根据已有数据分析)
(1)何时为打车需求高发期?
(2)居民夜生活活跃情况?
(3)城市一天的什么时候最为拥堵?
(4)什么时间容易接到长途单?
(二)、理解数据(表单说明)
id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上车的日期和时间
dropoff_datetime - 停表的日期和时间
passenger_count - 车辆中的乘客数量&#