机器学习
文章平均质量分 77
-Pursuit-
中国科学技术大学
华为终端BG 算法工程师
展开
-
2022 第二届中国移动“梧桐杯”大数据应用创新大赛-基于移动大数据的网约车司机识别 线上0.95+ 方案
大家好,我是轶扬,本文给大家分享一下最近半个多月参加的一个机器学习数据挖掘类比赛,移动主办的2022年梧桐杯——基于移动大数据的网约车司机识别,这是一个结构化表格类比赛,提供的数据不仅包含用户的基本信息,还包含了由通信网采集到的信令分析而得的用户位置移动轨迹信息。本文从数据探索、数据预处理、特征工程、模型训练与融合等多个方面,具体介绍了我提出的解决方案,前期只使用基于常规信息构造的特征,模型线上分数在0.94+,加入基于移动轨迹信息构造的特征后,线上分数为0.95+,线上排名top 3%。目录赛题背景.原创 2022-05-09 17:54:03 · 2507 阅读 · 3 评论 -
2020第一届无线大数据竞赛——华为赛道:无线网络智能定位 第2名方案
大家好,我是轶扬,本文给大家分享一下我在2020年参加的第一届无线大数据竞赛的比赛方案。IMT-2020(5G)推进组在2020年初成立了5G与AI融合研究任务组,也是从这一年开始,国内许多通信公司都推出了AI解决无线通信中各种问题的比赛,目的是加速5G引入AI技术,加大5G支持AI的力度,并争取在最新的5G增强技术标准中形成成熟的提案。2020年华为和移动共同举办了国内的第一届无线大数据竞赛,我参加了华为赛道的无线网络智能定位赛题,这是我第一次参加机器学习+无线通信的比赛,也是第一次深入学习和研究机器.原创 2022-05-07 17:14:36 · 2772 阅读 · 0 评论 -
偏态数据的观察、量化评估与处理前后的对比
在机器学习中,模型更容易从具有正态分布特性的数据中学习到有用特征。但我们经常会发现有些特征存在长尾分布,对于这种偏态分布数据,需要进行特殊的处理,本文首先观察特征分布情况,然后以量化的方式评估数据偏态程度从而挑选出偏态数据,最后对偏态数据进行对数化处理,对比处理前后的特征分布。通过箱线图观察不同特征的分布情况# 查看特征的数据倾斜情况# 丢弃y值all_features = df_train.drop(['label'], axis=1) # 找出所有的数值型变量numeric_dtype.原创 2022-04-30 22:36:50 · 1918 阅读 · 0 评论 -
ml-workspace 一体化机器学习开发平台(IDE、Docker、工具安装)
前言在我们进行机器学习的开发过程中,可能会遇到各种环境问题,俗话说,“单单配置环境这一步就把百分之五十的人挡在了机器学习的大门外”,因此,为了帮助大家克服所有环境问题,减轻学习成本,加快上手的速度,本文推荐一个非常非常简单易用便捷灵活高效…的一体化机器学习开发平台——ml-workspace。不仅仅解决环境安装等问题,ml-workspace是一个IDE,它提供了一整套机器学习研究、开发的工作流,提供了非常多的工具,比如Jupyter、vscode、git、基于web的linux桌面GUI、各类指标监控工原创 2022-04-22 18:19:39 · 3116 阅读 · 0 评论