SPSS MODELER

最新推荐文章于 2024-05-05 14:56:34 发布

翻斗大街翻斗花园胡图图

最新推荐文章于 2024-05-05 14:56:34 发布

阅读量997

点赞数

分类专栏： SPSS Modeler 文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_61652196/article/details/126501486

版权

SPSS Modeler 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

目标变量为连续性变量的模型就是回归模型，目标为分类变量的为分类模型

回归和相关都不能说明存在因果关系！！！！

回归模型：

一元线性回归

一个自变量与一个因变量

分析变量建立模型--估计系数解出方程--检验系数确认有效--拟合优度检验（模型有效度）--进行预测

建立散点图观看趋势，使用“回归节点”

字段：使用预定义角色--类型节点中的字段信息作为模型角色定义

定制字段分配--手动设置

权重字段---正数就可以，像频率一样

模型：使用分区数据--提前建立好分区的才行

为每个分割建立模型--某字段角色定义为拆分，那么会为拆分字段进行模型建立，拆分成几个部分就建立几个模型

方法---线性回归建立的方法

1. Enter（进入法）

为默认选项，不管好坏，变量统统进入模型。没有进行变量的筛选。

2. Remove（移除法）

先把变量统统纳入。然后强制规定移除哪几个变量。往往是先enter，然后remove。经常与其他方法合用。

3. Forward selection（前进法）

前进法是由少到多引入变量的方法。例如一个和尚可以挑水喝，引入另外一个和尚可以抬水喝，再引入一个和尚就没水喝了。所以引入两个和尚（变量）就可以结束了。引入第三个和尚（变量）对于模型来说没有贡献了。所以前进法主要是引入的重要性比较大的变量。

4. Backward elimination（后退法）

后退法刚刚好是前进法的反向。先把变量纳入。然后按照一定的规则，一个一个将贡献小的变量剔除。直到再剔除变量会严重影响模型效能。后退法的优点是考虑了自变量的组合作用，但是当自变量数目较多或者自变量间高度相关时，可能得不出正确的结论。

5. Stepwise（逐步回归法）

逐步回归则是结合了前进法和后退法。其实本质是前进法。先引入一个变量，然后再引入另外一个变量，评估整体模型的效能以及第一个变量的统计学意义，如果第一个变量变得没有统计学意义，就将第一个变量删除。如此反复。直到没有新的有统计学意义的变量纳入，以及没有无统计学意义的变量删除。逐步回归法结合了前进法和后退法的优点，因此被作为自变量筛选的一种常用的方法。

在等式中包含常量：包不包括常量（误差等数据）

分析结果：

金色钻石模型块里封装的模型结果，点击后可以查看结果

多元线性回归

因变量与多个自变量

散点图寻找关系，使用“回归节点”。

模型：专家模式可以调整参数，简单模型将是默认选项

缺失值：取消该选项，将会把缺失记录也纳入模型分析，计算可能会出现问题

异常值容差：容忍度阀值设置，默认为0.0001.小于此数将不会被纳入模型

以及方法的选择：步进等

输出常用统计量的选择

其中每项输出内容如下。
模型拟合度：模型拟合度分析结果，包括两种类型。拟合优度检验，对应的分析结果是Model Summary表。模型显著性检验，对应的分析结果是ANOVA方差分析表。
R方变化：模型构建过程中决定系数R²的变化值，输出结果将被增加到Model Summary表。
选择条件：模型构建过程中，每一步模型信息内容的统计量。这些统计量包括Akaike信息标准、Amemiya预测标准、Mallows预测标准和SBC标准。这些统计量越小，模型效果越好，输出结果将被增加到Model Summary表。
描述性：输出自变量及因变量的描述性统计指标，包括平均值、标准差以及记录数量,对应的分析结果是Descriptive Statistics表。另外,描述性也将输出系数相关矩阵,对应的分析结果是Correlations表。
部分相关和偏相关性：输出偏相关系数及部分相关系数。相比于普通的相关系数，偏相关系数及部分相关系数是刨除其他自变量影响的前提下，某个自变量单独对因变量的影响的评估，输出结果将被增加到Cofficients系数表。
回归系数：输出回归系数的估计值及对应t检验结果，对应的分析结果是Cofficients系数表。
置信度区间：输出回归系数的95%置信区间，输出结果将被增加到Cofficients系数表。
> 协方差矩阵：输出自变量的协方差矩阵，对应的分析结果是CofficientCorrelations表。
> 排除字段：输出在模型构建过程中没有被选择的自变量的相关统计量，包括剔除前对应的回归系数、t检验统计量、p值、偏相关系数以及容忍度，对应的分析结果是Excluded Variables表。
残差：输出预测值、残差、标准化预测值及标准差残差的统计量。统计量包括最小值、最大值、平均值、标准差和记录数量，对应的分析结果是ResidualsStatistics表。
共线性诊断：在多元回归分析中，如果自变量之间存在较强的相关关系，就会导致回归系数的估计值方差增加，从而使得预测精度下降，这个问题称为多种共线性。通过共线性诊断，回归模型将输出方差膨胀因子(VIF)以及容忍度。一般来说，当VIF≥10或容忍度≤0.1时，认为模型存在多重共线性，多重共线性的输出结果将被增加到Cofficients系数表。另外，此选项也会输出特征根及条件数的多重共线性判别结果，对应的分析结果是Collinearity Diagnostics表。
Durbin-Watson：在回归分析中，自相关也会为模型带来一系列问题。要检测自相关性可以使用DW检验，一般来说当DW值接近于2时，可以认为模型不存在序列自相关，DW检验的输出结果将被添加到Model Summary表。