首先特征选择在实际的数据挖掘项目中非常重要,从海量维度的特征中选取出表征明显的特征显得非常的重要。特征选择主要可以从数据相关性角度和信息增益的角度来考虑。
数据相关性判断:皮尔逊系数
当相关系数为0时,X和Y两变量无关系。
当X的值增大,Y也增大,正相关关系,相关系数在0.00与1.00之间
当X的值减小,Y也减小,正相关关系,相关系数在0.00与1.00之间
当X的值增大,Y减小,负相关关系,相关系数在-1.00与0.00之间
当X的值减小,Y增大,负相关关系,相关系数在-1.00与0.00之间
相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相