Thinking in BigData(14)大数据之DM经典模型(5)

     接着上篇文章,接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。

4、朴素贝叶斯模型

       表查询模型简单有效,但是存在一个问题。随着输入数量的额增加,每个单元格中训练样本的数量会迅速减少。如果维度为2,且每一维有10个不同的变量,那么就需要100个单元格,而当有3个维度时,就需要1000个单元格,4个维度就是10000.这样成指数级的增长,哪怕的传统数据挖掘中都会遇到明显瓶颈。

       当试图预测某一个概率值时,朴素贝叶斯模型就提供这一办法。基本思想:每个输入变量本身就包含一些预测需要的信息。比如目标变量是取消业务的概率,解释变量是市场、获取渠道、初始信用评分、利率计划、电话号码类型、手机号以及客户年龄。这些变量都具有预测能力。根据取消率的显著差异性,可将每个变量划分在不同的范围中。

       简单理解:条件概率是指给定B的条件下A的概率以及给定A的条件下B的概率。

       解释:给定B的条件下A发生的概率,等于给定A的条件下B发生的概率乘以AB发生的概率的比例。

       如果A代表停止续签,B代表使用黑莓手机,然后给定使用黑莓手机的条件下停止续签的概率,就是给定停止续签的条件下使用黑莓手机的概率乘以总体停止续签的概率与总体使用黑莓手机的概率之比。

4.1、概率、几率和释然

       ·概率:0到1之间的一个数字,表示一个特定结果发生的可能性。一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。

       ·几率:某一特定结果发生于不发生的概率比。如果一个事件发生的概率是0.2,那么不发生的概率是0.8。那么其发生的几率就是1/4。几率的取值是0到无穷。

       ·似然:两个相关的条件概率比。即给定B发生的情况下,某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。

4.2、朴素贝叶斯计算

       对任意数量属性中的每一个属性,朴素贝叶斯公式都将目标事件的几率与该事件的似然联系起来。回到基于营销市场、渠道获取、最初信用评分、费率计算、电话号码类型、手机型号以及客户年龄来预测客户流失的例子。例如上面谈到的黑莓手机续签的案例,我们关注的是。1、停止续签的总体几率。2、黑莓手机用户停止的似然。3、在整个州市场停止续签的似然。

       之所以定义为“朴素”,是基于所有似然相乘都基于输入变量相互独立的假设。在这个案例中,假设的是使用黑莓手机的似然与市场独立(并且存在于该州的似然与手机类型独立)。而在实际中,这种真正相互独立的情况很少见。

       朴素贝叶斯模型最吸引人的点:对于待评分的观测,如果缺失某些输入值,可以简单地将缺失的似然从模型中去掉。意味着,包含那些并不是对所有有用都可用的输入(用户年龄),但如果知道这些变量,它们就有用。给定不同输入的概率,且这些输入与停止续签相关,朴素贝叶斯公式就可以计算停止续签的几率,而公司对这种停止续签的用户更感兴趣。

4.3、朴素与表查询模型的比较

       对于概率型目标来说,朴素贝叶斯模型和表查询模型密切相关。两者之间的主要区别就在于如何使用维度。在表查询模型中,使用所有维度依次定义单元格,然后计算每一个单元格的目标概率。因此,表查询模型可以获取变量之间的相互作用。在朴素中,需要为每一个维度单独计算似然,之后组合这些似然,从而计算出目标概率。似然的组合有一个假设:各维度关于目标彼此独立。表查询没有说明这样一类属性的组合关系,即由于在训练数据中出现的频率很低,导致这些概率很低的属性就不会出现。</

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值