变量类型:
- 原始变量:直接从数据库中提取,可能并不是最有效的,但是易于解释;
- 衍生业务指标:来源于原始变量,是处理后的变量,比原始变量有更好的预测能力;
- 分析变量:是对原始数据进行转换和计算加工而成的变量,缺少简单或清晰的定义,难以解释,但是预测能力很强。
建模视图包含以下变量:
- 记录标识(ID):是唯一的识别变量;
- 候选自变量:可能 包括原始变量、衍生变量和分析变量;
- 描述变量:包含其他字段取值的标识或描述的字段被称为描述变量(例如居住类型作为建模变量时,取值1到7就是描述变量);
- 报告变量:不用于建模,但是用于写报告的变量;
- 违约状态字段:binary变量,1和0,表示违约和政策。
从分析的角度来看,自变量可分为:
-名义变量:分类变量,没有顺序关系,没有数量关系;
-顺序变量:排名变量,有顺序概念;
-连续变量:取值表示真实数量的变量。
数据要素分为:
- 人口统计特征:用户的基本属性,例如收入、性别、年龄等;
- 征信机构数据和外部评分;
- 交易记录:交易记录可以用来定义候选自变量以及违约状态变量(因变量);
- 其他产品的所有权和使用记录:被评分的客户的其他账户信息,一般交易记录有频率(刷卡次数)和汇总值(月度消费额或储蓄卡余额)两种。
行为评分卡是在特定的时段数据开发的,这个时段称为建模窗口。它可以长达几个月到几年,取决于客户群的特征和行为的变化率。一般的,信用卡的身躯中,12个月的建模窗口比较恰当。评分卡开发后,预期会在一定的时间段内实施,这个阶段称为实施窗口。信用卡申请中,实施窗口一般是一到三年。
行为评分卡开发时,对变量的计算都应该使用同样的时间窗口,对违约状态变量和某些汇总或描述统计量的计算可以在这些时间因素的基础上进行。