2022 第二届中国移动“梧桐杯”大数据应用创新大赛-基于移动大数据的网约车司机识别 线上0.95+ 方案

大家好,我是轶扬,本文给大家分享一下最近半个多月参加的一个机器学习数据挖掘类比赛,移动主办的2022年梧桐杯——基于移动大数据的网约车司机识别,这是一个结构化表格类比赛,提供的数据不仅包含用户的基本信息,还包含了由通信网采集到的信令分析而得的用户位置移动轨迹信息。本文从数据探索、数据预处理、特征工程、模型训练与融合等多个方面,具体介绍了我提出的解决方案,前期只使用基于常规信息构造的特征,模型线上分数在0.94+,加入基于移动轨迹信息构造的特征后,线上分数为0.95+,线上排名top 3%。

赛题背景

随着社会的进步和经济的发展,在交通领域,诞生一系列“互联网+“的出行方式,慢慢的,网上打车的习惯已经成为人们的日常,网约车的数量也在与日俱增。
如何从普通用户中有效鉴别出网约车司机,为内部流量推广和外部第三方企业合作扩展提供助力,在实际商业应用中有着重要的意义。
本届竞赛将从真实场景和实际应用出发,在智慧交通领域新增了更具挑战性、更加务实的任务,期待参赛选手们能在这些任务上相互切磋、共同进步。

任务目标

从普通用户中有效鉴别出网约车司机(01分类问题)

  • 评分标准: Score = 0.5 * AUC+0.5 * F1(Macro F1)

初步了解数据

查看官方的数据集介绍,了解数据集由几个表组成、主键是什么、表之间有什么关系,每个字段是什么含义
数据样本分为两份,第一份包含基础信息,通话信息,行为信息等常规数据集,第二份为位置数据集(用户位移的详细数据),相关数据集如下:

  • 常规基础数据集(提供三个月数据)
    在这里插入图片描述

  • 位置数据集(近三天的唯一数据,经纬度取自WGS84坐标系)
    在这里插入图片描述
    汇总两张数据表所提供的字段,并按照具体字段对应的业务类型进行分类:
    在这里插入图片描述

  • 从以上数据介绍中,可以看到对于每个用户都有对应的基础信息,例如个人身份信息、手机通话信息和各类app使用情况,因此确定第一张表的数据是直接可以用于建模的。

  • 第二张表是用户的位置轨迹信息,提供了每个用户三天的路程信息,主要包括进出每个基站的时间、基站所在的经纬度,以及表明是哪一天的信息,实时的反应了一个用户的行为轨迹信息,如驻留地、驻留时长、位移距离、位移速度等,这张表的信息不能直接用于建模,因此需要做进一步特征挖掘。

解决方案

在这里插入图片描述

  • 代码github链接:待整理后上传

改进方向

  • 从实际业务角度出发,结合网约车的行驶特点和运营过程中的手机使用特点,进一步挖掘位置轨迹类特征和常规信息类特征。
  • 对数据集中的某些干扰样本进行甄别、去除。
  • 二分类阈值在线上和线下数据集不一致,需要测榜调整阈值。

欢迎各位一起交流学习~

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值