二分变量作为离散变量的一种类型,在数据挖掘中发挥着重要的作用。我试着从多个方面来说说二分变量的好处。
1、简单。嗯……这个就不用说了吧,二分变量就两个取值,1和0,或者T和F,够简单吧,计算机技术的基础也是二进制,可谓异曲同工,简单就是美,一直我信奉的信条;
2、其它类型的变量可以通过某种变换转化为二分变量的形式。我们简单的变量划分为两种,连续变量和离散变量(事实上二分变量可以理解为一种离散变量形式),这两种形式的变量都可以通过某种变换转化为二分变量。
(1)多分离散变量(即是取值多于两种的离散变量)。可以通过把一个多分变量转化为多个二分变量的方式实现多分离散变量向二分变量的转变。例如:是否流失可以分为取值为非自愿流失、自愿流失和不流失的三分变量,我们可以把它转化为3个二分变量来表示,即是否非自愿流失(1代表是,0代表否),是否自愿流失和是否不流失,并且在不损失信息量的情况下,我们甚至只需要保留是否自愿流失和是否不自愿流失两个二分变量即可。
总结一下,我们可以通过把n分变量转化为n-1个二分变量的方式实现多分变量向二分变量的转化。
(2)连续变量。连续变量可以通过装箱(或者叫做切分)的方式转化为多分的离散变量,继而可由多分离散变量转化为二分变量。例如:工资收入是连续变量,但我们很容易的可以用1:1000元以下,2:1000元-5000元,3:5000元以上这样的切分方式把它转化为三分离散变量。
注意一点,从连续变量向二分变量的转化会损失信息量,实际上主要是损失精度。
以上变换看似简单,但是却是数据挖掘数据准备过程中非常实用的方法和技巧。
3、二分变量可以转化为连续变量。在2中我们介绍了连续变量向二分变量的转化,实际上二分变量也可以向连续变量转化,我们不妨把二分变量表示为1和0,实际上我们只要不把这个1和0理解为离散的,而是理解为1.0和0.0这样两个连续的数值,就轻松的可以使用一些处理连续变量的方法来处理它了。
这样的变换从表面上看,没有改变什么,但是却让我们对它可以进行的处理方式变得更加丰富多样。
4、如果将二分变量作为预测的目标变量(因变量),无论从模型的种类还是模型的评估方面都有更多的选择,这些内容将放在另外的文章单独阐述。
5、二分变量预测问题本身就可以解决多商业实践中的业务问题。以下是不完全列表:
(1)目标客户群定位;
(2)交叉销售;
(3)流失分析;
(4)欺诈发现。