README

图灵联邦视频点击预测大赛线上第三名方案 tuling-video-click-top3

2020-TURING-TOPIA-Video-Click-SINGLE-LightGBM-top3

===============================================================================================================
图灵联邦视频点击预测大赛线上第三(LightGBM单模)

主办方: 图灵联邦

赛道:2020-视频点击预测大赛

赛道链接:https://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch
赛程时间2019.11.11-2020.03.09
参与人第一次打比赛小兔子乖乖Freakluweihai
方案文档文档链接
百度云盘下载链接:为避免数据丢失,提供数据集下载地址链接: https://pan.baidu.com/s/1YPtg4QyiAdhRAMoxjis_Gw 密码: 0a3r

1.数据说明

train.csv

字段中文名数据类型说明
id用户IDVARCHAR2(50)代表数据集的第几条数据,从1到11376681
target是否点击VARCHAR2(50)代表该视频是否被用户点击了,1代表点击,0代表未点击。
timestamp修改时间戳VARCHAR2(50)代表改用户点击改视频的时间戳,如果未点击则为NULL。
deviceid设备IDVARCHAR2(50)用户的设备id
newsid视频IDVARCHAR2(50)视频的id。
guid注册IDVARCHAR2(50)用户的注册id。
pos推荐位置VARCHAR2(50)视频推荐位置
app_versionapp版本VARCHAR2(50)app版本。
device_vendor设备厂商VARCHAR2(50)设备厂商
netmodel网络类型VARCHAR2(50)网络类型。
osversion操作系统版本VARCHAR2(50)操作系统版本。
lng经度VARCHAR2(50)经度。
lat维度VARCHAR2(50)维度。
device_version设备版本VARCHAR2(50)设备版本。
ts用户ID时间戳视频暴光给用户的时间戳。

test.csv

字段中文名数据类型说明
id用户IDVARCHAR2(50)test_1到test_3653592
deviceid设备IDVARCHAR2(50)用户的设备id
newsid视频IDVARCHAR2(50)视频的id。
guid注册IDVARCHAR2(50)用户的注册id。
pos推荐位置VARCHAR2(50)视频推荐位置
app_versionapp版本VARCHAR2(50)app版本。
device_vendor设备厂商VARCHAR2(50)设备厂商
netmodel网络类型VARCHAR2(50)网络类型。
osversion操作系统版本VARCHAR2(50)操作系统版本。
lng经度VARCHAR2(50)经度。
lat维度VARCHAR2(50)维度。
device_version设备版本VARCHAR2(50)设备版本。
ts用户ID时间戳视频暴光给用户的时间戳。

app.csv

字段中文名数据类型说明
id用户IDVARCHAR2(50)test_1到test_3653592
deviceid设备IDVARCHAR2(50)用户的设备id
applist deviceid视频IDVARCHAR2(50)用户所拥有的app,我们已将app的名字设置成了app_1,app_2…的形式。

test.csv

字段中文名数据类型说明
id用户IDVARCHAR2(50)test_1到test_3653592
deviceid设备IDVARCHAR2(50)用户的设备id
guid注册IDVARCHAR2(50)用户的注册id。
outertag用户画像VARCHAR2(50)用户画像用竖号分隔,冒号后面的数字代表对该标签的符合程度,分数越高代表该标签越符合该用户。
tag用户画像VARCHAR2(50)同outertag
level用户等级VARCHAR2(50)用户等级。
personidentification是否优劣VARCHAR2(50)1表示劣质用户 0表示正常用户。
followscore徒弟分VARCHAR2(50)徒弟分(好友分)。
personalscore个人分VARCHAR2(50)个人分。
gender性别VARCHAR2(50)性别

2.配置环境与依赖库

  • python3
  • scikit-learn
  • gensim
  • Ubuntu
  • LightGBM
  • notebook

3.运行代码步骤说明

分别按照代码顺序
运行1,2,3,4

1 feature.ipynb 特征工程
2 fold_model.ipynb
3 offline_model.ipynb 离线模型
4 online_model.ipynb 线上模型

4.特征工程

  • 原始特征
  • 穿越特征
  • 统计特征
  • embedding特征

5.模型训练

单模,初赛最终榜:0.83695 线上第三

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值