Thinking in BigData(12)大数据之有指导数据挖掘方法模型序(3)

       接着上面博客继续探讨:有指导数据挖掘方法模型步骤

5、修复问题数据

       所有数据都是脏的。所有的数据都是有问题。究竟是不是问题有时可能随着数据挖掘技术的变化而变化。对于某些技术,例如决策树,缺失值和离群点并不会造成很大的麻烦,但是对于其他技术,例如回归和神经网络,它们会产生很多问题。

5.1分类变量的值太多

       有许多值的变量必须以某种方式来处理。一种方法是对这些值进行分组,即把与目标变量关系相同的多个类别的值放在一起。

5.2包含偏态分布和离群点的数值变量

       关于离群点和偏态分布的数据,采用:把所有变量和权重值相乘,然后求和。有时也采用,把这些值分成同等大小的值域,例如:小数点后的数据,我们采用最好转换这些数据,通过对值的标准化来缩小这些值的范围。

5.3缺失值

       把缺失值纳入模型中,但是模型本身去不能处理缺失值,丢弃这些值又会照成误差,因为这些值是不均匀分布的。方法:替换,用平均值或最常见的值来替换。替换缺失值为一本不可能的值会产生更坏的结果。

       一些数据挖掘工具提供了填充缺失值的功能,这些方法基本上市使用数据挖掘技术找出缺失值应该取什么值。

      然而有些值往往由于很正常的缺失。例如,探究使用一年历史数据的模型,对于在一年以上使用的用户就会出现问题。他们在多出的时间里,那部分数据是空的。还有些客户与数据库不匹配,致使所有的人口统计值丢失。这时候,我们采用的是在不同部分的数据上建立多个模型。对超过一年的用户,一个模型。对近期的客户建立另一模型。按照自己的意愿,建立多个模型。

      在建立模型的是要特别注意,记录被抛弃的数据。通常模型被分解成不包含缺失值的子集,然后对每个子集建立一个单独的模型。

 

6、转换数据以揭示信息

       在已经聚合了数据并修复了主要问题的数据问题后,准备对数据进行分析。这可能需要加入派生字段来揭示一些信息。还可能涉及要删除离群点、分箱,对分类变量进行分组以及应用一些转换,例如:对数转换、把计数变成比例等。

7、构建模型

       在有指导数据挖掘中,训练集用于根据独立的目标或输入变量产生相关依赖或目标变量的解释。这种解释为,神经网络、决策树、链接图、或其他关系的表示,即目标与数据库中其他字段之间的关系。一般这些工作室友数据挖掘软件自动完成。

8、评估模型

      空缺,后面会具体的探讨如何评估一个模型。

9、部署模型 

       数据挖掘工具把评分代码当作模型部署过程中的一部分。这个评分可以利用:SASSPSS,或使用编程语言,CjavaC#。然而模型代码的部署只解决了一半问题,因为模型通常使用不存在于原始数据中的输入变量。模型的评分是一个很大的挑战性,尤其当要对模型进行实时评分时。例如:当一个客户把一件物品放到购物篮中或访问Web页面时,Web应用程序都需要对模型进行评分。这样的评分必须非常迅速,因为客户评分的过程不能干扰网站导航的便利性。

9.1优化模型进行部署

       评估模型盈利需要考虑模型的成本和收益是否正确的情况。针对不同大小的人群,通过图表可以显示一个活动的额实际盈利能力。

       评估模型的盈利需要询问以下几个问题:

        ·设立活动和支持它的模型的固定成本是多少

        ·每个优惠接受者的成本是多少、

        ·每个优惠响应者的成本是多少

        ·正面响应的价值是多少

       当盈利模型的质量取决于它的输入。虽然活动的成本和可变成本是很容易得到的,但是响应者的预测值很难估计。搞清楚客户的价值是超出了讨论范围,但一个良好的故居有助于度量数据挖掘模型的价值。

       最后,最重要的度量是投资回报率。度量测试集的提升有助于选择合适的模型。基于提升的盈利计算有助于决定如何应用该模型的结果。但是,度量这些字段中的信息也非常重要。在一个数据库营销的应用中,这样做需要撇开对照组,并根据不同的模型分数仔细跟踪客户的响应,制定合适的方案。

10、评估结果

       一个典型的模型需要不同的测试组:

        ·检验组:具有较高的模型分数,比那个接收到反馈信息的组

        ·模型对照组:具有较高的模型分数,但是没有得到反馈信息的组

        ·控制组:模型分数较低或是随机的,并且接收到信息的组

        ·对照组:具有随机的模型分数,并且没有收到反馈信息的组

11、重新开始

       每一个数据挖掘项目产生的问题比答案要多,这是件好事。这意味着一些以前不可见的新关系现在可见。新发现的关系提出了新的需要测试的假设,而数据挖掘的过程将重新开始。重新挖掘反馈有效信息。

 

总结:

       有指导的数据挖掘就是搜索历史记录,从而找到能解释一个特定结果的模式。有指导数据挖掘模型的两个类别分别是剖析模型和预测模型。这些类型使用相同的技术和方法:它们之间的区别仅仅在于模型集的构造方式

       有指导数据挖掘问题解决方案可能涉及多个串连起来的模型。因此,一个交叉销售模型可能针对每个产品采用不同的预测模型,并使用决策规则以选中最佳结果。响应模型可用于优化盈利,它真正地计算了响应的期望值,而不是响应的可能性。一个更复杂的方法是使用增量响应模型,这时的目标是营销工作影响响应率的增加,而不仅是响应率本身。

       在数据挖掘模型创建过程中,第一道坎就是把数据挖掘问题转换成业务问题。下一个挑战就是找到适当的数据,这些数据可以转化为可操作的信息。找到数据后,应当对其进行深入探索,探索过程可能会发现一些数据问题。它也将有助于建立数据挖掘人员对数据的直观理解。下一步就是创建一个模型集,并把它划分为训练集、验证集和测试集。

       数据转换是必须的,两个目的:一、修复一些数据相关的问题,例如缺失值和值太多的分类变量。二、揭示一些信息,通过创新的变量来代表趋势、其他比例和组合。后面在详细谈数据如何转换。

       当数据转换好了,构建模型就是一个相对容易的事情。每类模型有自己的指标,通过这些指标可以评估它,独立于模型之外的评估方法也是可行的。其中有一些很重要的评估方法是提升图和ROC图,这些方法表明了该模型的如何增加目标变量预测值的浓度,并给出混淆矩阵以显示二元相应模型误分类的错误率,还为数值目标显示分数分布图。后面我们会基于这个方法更深入的探讨有指导数据挖掘技术是如何构建自己的模型。



       参考《数据挖掘技术》



Copyright©BUAA

 

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值