学习链接科大讯飞AI大赛(机器学习方向) - Datawhale
本次深度学习的主题内容是用户预测,首先看输入与输出,输入为多维用户信息数据,输出为是否为新用户。在这里我学习到了一点,就是要探索测试集与训练集之间是否存在关联,就比如此处,测试集中93%的用户出现在训练集中,这点值得我们注意,如果在训练完后不做处理直接测试的话会发生伪正确率的情况。
以下是datawhale的开源者们分享的设计思路表格
| 模块 | 具体设计 | 参考依据/方法论 | 
| 特征设计 | 提取时间特征(如时段、停留时长等) | 用户行为分析理论(行为模式捕捉) | 
| 模型选择 | 采用LightGBM | • 模型稳定性高 | 
| 五折交叉验证 | Scikit-learn最佳实践 | |
| 阈值优化 | 基于F1-score动态调整分类阈值 | 精确率-召回率平衡策略 | 
从中我们就可以总结出来,对于这样的结合信息分类问题,我们的思路是特征工程+分类算法+验证。
基于此思路我们可以想到构建用户的不同特征集合,包括时间特征,行为特征,统计特征等,对于不同的特征我们可以进行聚合后采用lightgbm模型。文中将用户的行为特征进行了分层建模,因为这是一个交互事件,问题被拆解为两层,用户层和事件层,通过分层建模捕捉用户级特征与事件级特征的交互。后续也提供了一些思路包括目标编码特征构建、TF-IDF信息挖掘、聚合特征构建等,我认为还可以使用不同的模型分别处理不同的特征,最后再对不同模型求取权重,得到最后的结果。
 
                   
                   
                   
                   
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
              
             
                   890
					890
					
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
            


 
            