特征选择:可以选择一些重要的数据先建模试一下哪个模型比较好
由于此前创建了数千条特征,若带入全部特征进行建模,势必极大程度延长模型建模时间,并且带入太多无关特征对模型结果提升有限,因此此处我们借助皮尔逊相关系数,挑选和标签最相关的300个特征进行建模。当然此处300也可以自行调整
这里为什么使用皮尔逊相关系数:皮尔逊相关系数是连续变量之间的相关性评估方法,这里有很多离散变量,为什么还要使用呢,因为我们把那些新生成的特征都当做连续变量来看待,因为之前业务统计特征进行一些统计指标,都是对于连续变量的,我们默认是连续变量,对于python而言,如果不进行独热编码,都默认是连续字段
ELO用户忠诚度评分建模
最新推荐文章于 2024-08-14 15:10:26 发布