数据转化
数据离散化
数据扩充
数据合并与拆分
数据转化
- 数据转化的目的
这部分的目的较多,如分类变量赋值后可以使用更多的分析方法;连续变量转化为分类变量是因为各人群之间的差异并不大,可以进行分组;标准化的目的是为了消除各变量之间的数据量纲;数据一般化的目的是将同连续变量转化为分类变量的目的,不需要针对细分的分类进行分析。
-
数据转化的内容
1.数据型态转化
1)分类字段转化为连续字段,赋分法;
2)连续字段转化为分类字段,也叫数据离散化;
2.数据标准化
1)极值标准化
2)Z值标准化
3.数据一般化
将原始数据的概念阶层向上抽象提升,如会员的家庭地址用城市或是北中南东四区取代
数据离散化
目的:
1)降低数据复杂程度,让模型拟合更精确、更具解释力;
2)为了支持无法处理连续数值型字段的算法模型,如贝氏网络、关键规则、卡方检验;
3)可以到与目标变量(因变量)的变化趋势,更符合实际情况,便于实际中应用。
方法:
人工分离法:
1)根据专家个人意见来分离;
2)根据尝试来分离,如年龄分为20岁及以下、21-30、31-40、41-50、51-60、61岁及以上。
装箱法(Binning Method):
1)等宽(Equal-Width-Interval)装箱法;
2)等分(Equal-Frequency-Interval)装箱法。
数据扩充
数据扩充目的
现有数据不能满足分析要求,需要增加外部数据,或者通过已有的数据生成新的变量。
数据扩充内容
1.外部数据的扩充
如分别将一群样本在不同时期测量得到的前侧、后侧成绩合并
2.内部数据的扩充
利用已有的字段重新整合计算得到新的字段,如基于研究经验知道性别与年龄对收入存在交互作用,因此需要重新生成性别与年龄的交互变量。
数据合并与拆分
- 数据合并与拆分的目的
满足分析时对数据个性化制定的需求
- 数据合并
两部分拥有相同字段的数据合并在一起
- 数据拆分
随机拆分
按比例拆分:分层抽样法
【使用SPSS进行数据合并、白能量重新编码、异常值诊断、数据选取等预处理操作】