“Datawhale AI夏令营“ 机器学习

       学习链接科大讯飞AI大赛(机器学习方向) - Datawhale

       本次深度学习的主题内容是用户预测,首先看输入与输出,输入为多维用户信息数据,输出为是否为新用户。在这里我学习到了一点,就是要探索测试集与训练集之间是否存在关联,就比如此处,测试集中93%的用户出现在训练集中,这点值得我们注意,如果在训练完后不做处理直接测试的话会发生伪正确率的情况。

       以下是datawhale的开源者们分享的设计思路表格

模块

具体设计

参考依据/方法论

特征设计

提取时间特征(如时段、停留时长等)

用户行为分析理论(行为模式捕捉)

模型选择

采用LightGBM

• 模型稳定性高
• 训练效率快
• 数据预处理需求低

五折交叉验证

Scikit-learn最佳实践

阈值优化

基于F1-score动态调整分类阈值

精确率-召回率平衡策略

       从中我们就可以总结出来,对于这样的结合信息分类问题,我们的思路是特征工程+分类算法+验证。

       基于此思路我们可以想到构建用户的不同特征集合,包括时间特征,行为特征,统计特征等,对于不同的特征我们可以进行聚合后采用lightgbm模型。文中将用户的行为特征进行了分层建模,因为这是一个交互事件,问题被拆解为两层,用户层和事件层,通过分层建模捕捉用户级特征与事件级特征的交互。后续也提供了一些思路包括目标编码特征构建、TF-IDF信息挖掘、聚合特征构建等,我认为还可以使用不同的模型分别处理不同的特征,最后再对不同模型求取权重,得到最后的结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值