滴滴数据挖掘竞赛题目

赛题详情

在出行问题上,中国市场人数多、人口密度大,总体的出行频率远高于其他国家,这种情况在大城市尤为明显。然而,截至目前中国拥有汽车的人口只有不到10%,这意味着在中国人们的出行更加依赖于出租车、公共交通等市场提供的服务。另一方面,滴滴出行占领了国内绝大部分的网络呼叫出行市场,面对着巨大的数据量以及与日俱增的数据处理需求。截至目前,滴滴出行平台日均需处理1100万订单,需要分析的数据量达到50TB,路径规划服务请求超过90亿。面对如此庞杂的数据,我们需要通过不断升级、完善与创新背后的云计算与大数据技术,从而保证数据分析及相关应用的稳定,实现高频出行下的运力均衡。供需预测就是其中的一个关键问题。
供需预测的目标是准确预测出给定地理区域在未来某个时间段的出行需求量及需求满足量。调研发现,同一地区不同时间段的订单密度是不一样的,例如大型居住区在早高峰时段的出行需求比较旺盛,而商务区则在晚高峰时段的出行需求比较旺盛。如果能预测到在未来的一段时间内某些地区的出行需求量比较大,就可以提前对营运车辆提供一些引导,指向性地提高部分地区的运力,从而提升乘客的整体出行体验。
文件名称文件格式下载
training_set.tar.gz.tar.gz(600MB)下载数据
test_set.tar.gz.tar.gz下载数据

定义及评估标准

1. 问题定义
乘客打开滴滴出行app,输入出发地和目的地并点击“呼叫”后就完成一次发单( request),有司机接单后就完成一次应答( answer)。
将一个城市划分为 n个互不重叠的正方形区域 D={d1,d2,⋯,dn },将每一天的24小时划分为144个10分钟长的时间片 t1,t2,⋯,t144
对于区域 di,在时间片 tj,有 rij个乘客发单,有 aij个司机成功应答了 aij次发单。
对于区域 di,在时间片 tj,定义需求 demandij= rij,供给 supplyij= aij,则有供需缺口 gapij: gapij =  rij -  aij
给定每个区域在时间片 tj, tj-1...的各项数据,预测 gapi,j+1, ∀d i∈D。
2. 评价指标
对 n个区域和 q个时间片,区域 di在时间片 tj的供需缺口为 gapij,选手预测值为 sij
以 MAE作为最终的评价指标: MAE越小越好。
3. 选手提交结果
选手提交的数据格式为:区域ID,时间片,预测值。其示例如下:
其中每个字段的具体描述如下:
数据名称数据类型示例
区域IDstring1,2,3,4 (与区域映射ID一致)
时间片string2016-01-23-1(即2016年1月23日第1个时间片,时间片是将每天的时间按10分钟间隔划分到1-144个片中)
预测值double6.0

数据形式

训练集中给出M市2016年连续三周的数据信息,需预测M市第四周和第五周中某五天的某些时间段的供需。测试集中给出了每个需预测的时间片的前半小时的数据信息,具体需预测的时间片见说明文件(说明文件含在数据集下载包内)。 具体数据如下,其中订单信息表、天气信息表和POI信息表为数据库中直接的表信息,而区域定义表、拥堵信息表是由数据库中其他表衍生的信息。
订单信息表
字段类型含义示例
order_idstring订单ID70fc7c2bd2caf386bb50f8fd5dfef0cf
driver_idstring司机ID56018323b921dd2c5444f98fb45509de
passenger_idstring用户ID238de35f44bbe8a67bdea86a5b0f4719
start_district_hashstring出发地区域哈希值d4ec2125aff74eded207d2d915ef682f
dest_district_hashstring目的地区域哈希值929ec6c160e6f52c20a4217c7978f681
Pricedouble价格37.5
Timestring订单时间戳2016-01-15 00:35:11
订单信息表主要覆盖了一张订单的基本信息,包括这张订单的乘客,以及接单的司机(driver_id =NULL表示driver_id为空,即这个订单没有司机应答),及出发地,目的地,价格和时间。
区域定义表
字段类型含义示例
district_hashstring区域哈希值90c5a34f06ac86aee0fd70e2adce7d8a
district_idstring区域映射ID1
区域定义表主要表示比赛评测区域的信息,选手需选择区域定义表中的区域来做预测,并在最终提交的结果中需将区域哈希值映射为其相应的ID。
POI信息表
字段类型含义示例
district_hashstring区域哈希值74c1c25f4b283fa74a5514307b0d0278
poi_classstringPOI类目及其数量1#1:41 2#1:22 2#2:32
POI信息表主要表征区域的地域属性,由其中所含的不同类别设施的数量表示,如2#1:22表示在此区域中含有类别为2#1的设施22个,2#1表示一级类别为2,二级类别为1,例如休闲娱乐#剧院,购物#家电数码,运动健身#其他等等。不同类别及其数量以\t分割。
拥堵信息表
字段类型含义示例
district_hashstring区域哈希值1ecbb52d73c522f184a6fc53128b1ea1
tj_levelstring不同拥堵程度的路段数1:231 2:33 3:13 4:10
tj_timestring时间戳2016-01-15 00:35:11
拥堵信息表主要表示区域中道路的总体拥堵情况,其中主要包括不同时间段不同区域的不同拥堵情况的路段数,其中的拥堵级别是越大越拥堵。
天气信息表
字段类型含义示例
Timestring时间戳2016-01-15 00:35:11
Weatherint天气7
temperaturedouble温度-9
PM2.5doublepm2566
天气信息表主要表示整个城市的每天间隔10分钟段的天气情况。其中的weather字段表示天气的实时描述信息,而温度以摄氏温度表示,PM2.5为实时空气污染指数。
  • 8
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 33
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 33
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值