[上分指南] 2020华为云大数据挑战赛热身赛如何“未卜先知”测试集数据的分布特点?探索思路分享第二弹

[上分指南] 2020华为云大数据挑战赛热身赛如何“未卜先知”测试集数据的分布特点?探索思路分享第二弹

STEP 0:引子

“华为云杯”2020深圳开放数据应用创新大赛 ·深圳北站周边交通拥堵指数预测比赛即将开始了,数据竞赛萌新JerryX仔细了解了这个比赛数据后,简单思考了一下,并做了一点简单可视化(EDA),竟发现了一点玄机。。。

(不是说好是华为云大数据挑战赛热身赛嘛,怎么突然开始说起隔壁比赛了?莫非是广告?)
(如果看过以后觉得有用,回头一定要点个赞哈~)

别急别急,且听我娓娓道来——

STEP 1: 打开华为云杯的比赛网址并点击立即报名

在这里插入图片描述

此处是 比赛链接(常规操作,报名比赛,准备下载数据)

STEP 2:查看赛题说明的数据说明部分

在这里插入图片描述
什么!!2019年1月到3月!!!
似乎发现了什么不得了的事情(此时的你内心可以开始狂喜一阵了)
在这里插入图片描述
我们再回头看看华为云大数据挑战赛热身赛的数据说明,两个比赛的数据时间周期竟然有重叠!高校赛的测试集时间范围包含于华为云杯的训练集时间范围!

在这里插入图片描述
另外我们了解到华为云杯的预测地理位置中心深圳北站与高校赛的预测目标五和大道/张衡路路口仅有15min的车程

这样,我们就可以利用隔壁的**华为云杯赛道的交通属性数据来“未卜未知”**高校赛热身赛的线上测试集数据分布了。有一个大致方向上的参考了。

STEP 3:Simple EDA

我们注意到华为云杯的数据中的两个容易分析的特征:TTI和Speed,即交通拥堵指数和车速属性。进一步对于高校赛的训练集和测试集时间范围内的华为云杯比赛的数据集内的TTI与Speed属性做一点可视化,可以得到以下几张图,由此可以直观观察到数据的一些周期性和单调性。

STEP 3.1 TTI 特征可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

STEP 3.1 Speed 特征可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

 通过这些简单的可视化图,我想大家能够对于春节前后的交通流情况有一个更加直观清晰的认识了。

先分析到这里,觉得不错的可以点赞关注哈!也欢迎大家持续关注JerryX的博客(以及不久以后即将进驻的华为云博客),希望能够与大家一同学习、成长!!!如有什么问题,更欢迎大家的批评指正!!【上分指南】系列文章也将持续更新哦~

往期【上分指南】与赛题分析:
[上分指南] 2020华为云大数据挑战赛热身赛如何轻松快速提高10分?baseline简单解读与优化思路分享第一弹

2020中国高校计算机大赛·华为云大数据挑战赛热身赛_交通流量预测赛题分析4.26更新版(持续更新,欢迎关注!!!)

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值