介绍:
数据由训练集、测试集、事件数据组成。总设备id超过2w,包含设备信息、APP信息和事件信息,其中device_id为用户的唯一标识符,gender为用户性别,age为用户年龄。为了保证比赛的公平性,将会从中抽取2w条设备id为训练集,3千多个设备id作为测试集,同时会对部分字段信息进行脱敏。
评测标准:性别预测使用准确率指标,年龄预测使用1/(MAE+1),最高分为2
Baseline概述:本baseline构建用户app和tag的w2v emb特征,传入LightGBM进行五折交叉验证
配库:
!pip install numpy==1.19.5 pandas==1.2.4 lightgbm==3.2.1 gensim==4.0.1 seaborn==0.11.1 -i https://pypi.doubanio.com/simple/