多维数据在建模过程中,会出现很多问题,在基于logit模型的客户信用风险预测一文中,有谈到关于变量降维的几种方法:(1)基于经验,简单但主观性很强;(2)基于变量的统计显著性,模型上可靠但未必实务上可用;(3)变量规约,即用因子分析、主成分分析等方法将多个变量分解或合成为少数几个聚合因子。
之前用的是(1)和(2),这篇文章讨论第三种:主成分分析与因子分析。首先解决两个问题。
- 什么是主成分分析与因子分析
同:都是统计降维方法,将多个变量浓缩为少数几个新变量(主成分或因子)
异:浓缩方法不同,主成分分析是将原变量进行聚合,新变量(主成分)表示为原变量的线性组合;因子分析是将原变量进行结构,原变量表示为新变量(因子)的线性组合。
- 主成分分析与因子分析有什么用?
(1)对解释变量进行降维处理,输出值作为下一步的输入值,作为其它建模过程的准备部分。
(2)直接作为建模主体,构建指标评价体系。
下面通过一个案例加以说明。
背景与上一篇文章相似,我们依然希望通过一些变量和数据建立起客户(银行)的风险评估体系&#