SPSS MODELER笔记1----数据基本处理和整体方法概念

基本思路

统计挖掘模型是利用一个或多个输入变量,一般也被称为自变量,通过你和适当的关系式来预测目标变量也被称为因变量的方法。

误差

往往在模型当中也包含了随机误差项,它是指在测试过程中因诸多因素随机作用而形成的,具有不可抵抗性的误差。生成因素十分复杂,由于不可知,因此只能估计。这个属于不可约误差。
另一个误差则是可约误差,它可以通过不断的对模型的优化降低。所以,可约误差与不科学误差决定了模型的精确度。


数据挖掘任务可以简单地分为预测人物和控制任务。


预测任务。其中的预测模型的形式向一个黑箱模型。即对于模型本身,我们不能很好地解释,或者并不清楚其内部的结构,而是更加关系模型的输入和输出,只要能够提高预测精度,我们就认为达到目的了。
控制任务。只预测结果固然重要,但我们也非常关心模型的具体形式,比如哪个因素影响高?哪个因素影响的另一种分类?
就是从一侧的场景来看,分为有监督学习与无监督学习。上述内容都属于有监督学习的范畴。而对于无监督学习,就是指只有自变量啊,没有明确因变量。而监督学习的是每一个自变量,都有与其明确对应的因变量。


数据挖掘方法论

其中最经典一个就是。CRISP-DM,他将一个数据挖掘项目分为六个步骤
第一,商业理解
第二数据理解
第三,数据准备
第四,建立模型。
第五模型评估
第六,结果部署。
实际上,这是一个不断循环的过程,如果在某些阶段遇到问题,那我们就返回上一段进行。


商业理解阶段

在做数据挖掘的时候,我们一定要明白。分析方法只是手段,不是目的,我们最重要的是要理解客户的根本需求,并不是建立一个最完美的模型。这个是次要的。这就是商业理解阶段我们需要对客户的商业运行逻辑有一定的了解


数据理解阶段

我们需要全面认识企业的数据,资源和资源有何特征,然后根据我们的应用目标来开展哪些数据应该被纳入进来,所以我们应该思考哪些数据可以用于本次分析的主题,哪些数据已经在公司的系统中是否有一些重要的影响因素,还没记录和需要付出一定的代价才能获取。再比如我们在零售业经常看到会员积分这个指标,那么我们必须要清楚会员积分的规则,对于客户来说,会员积分的吸引点是什么?他的一些运行模式,累积模式,我们都需要明白的了解。之后才会更好地做出分析。之后,我们要对数据进行探索性分析,也就是对数据的质量分析。对数据的分布分析。辅助统计指标,统计分析。


数据准备阶段


第一是数据清洗
在这一阶段,我们需要对数据的缺失值进行清洗,对数据的离群值进行清洗。对于离群值,我们可以删除记录和把离群值进行替换。上离群值等于,四分位数括号0.75加iqr2成三,下离群值等于四分位数括号0.25括号减iqr乘三。也需要对三类指标分类字段进行一定的处理,将不合规的字段将编码方式,统计口径不一致的问题。然后对单位范围等等进行一系列的处理。
第二就是数据的衍生转换
第一个问题单变量转单变量。比如转换单位。对数据进行标准化等等。

连续变量转连续变量。通常有对数据进行标准化。对数转换 转换单位。
连续变量转化为离散变量。一般采取的措施是利用分箱处理,可以选择等距离分箱和等数量分箱。
离散变量转化为连续变量,一般只适用于将一些有序的分类变量转化为1234。
将离散变量转化为离散。一般当某个分析变量中包含多个类别,是考虑到会对模型产生不良影响,会合并变量。多变量之间的相互衍生。


汇总型指标。强度相对指标。比例相对指标时间相对指标。趋势型指标。波动指标。
指标和强度相对指标一般也就是描述的范畴。

整个数据挖掘项目中的核心阶段就是建立模型阶段。在某些阶段中,我们会有多种合适的模型和选择方法,但在这个时候,我们需要不断的测试,以选出最优的哪一个。模型的评估往往要从业务和技术两个方面来进行考虑。对于模型的评估,可以采取一些常用的指标,比如

模型准确率,它用于直接描述模型的总体准确情况。但是,具体在某些案例当中可能是更加关注某一个特定的类别,并不是整体模型的准确率,

第二个模型的精确率。它主要反映的是模型,对目标类别的预测准确性。

第三个是模型的召回率。使用召回率,这个指标就是衡量模型,是否能够将目标一网打尽。我们可以使用F值作为综合评价指标,它是精确率和召回率的调和平均数

结果部署

结果部署阶段就是让模型与业务进行最紧密的结合,实际应用到商业节目当中,以实现自己的价值,同时制定相应的维护及更新策略,数据挖掘模型并不是一成不变的,随着时间的推移和商业环境的变化。挖掘模型需要建立一个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值