数据规范化

数据转化

数据离散化

数据扩充

数据合并与拆分

数据转化

  • 数据转化的目的

这部分的目的较多,如分类变量赋值后可以使用更多的分析方法;连续变量转化为分类变量是因为各人群之间的差异并不大,可以进行分组;标准化的目的是为了消除各变量之间的数据量纲;数据一般化的目的是将同连续变量转化为分类变量的目的,不需要针对细分的分类进行分析。

  • 数据转化的内容

    1.数据型态转化

    1)分类字段转化为连续字段,赋分法;

    2)连续字段转化为分类字段,也叫数据离散化

2.数据标准化

1)极值标准化
2)Z值标准化

3.数据一般化

将原始数据的概念阶层向上抽象提升,如会员的家庭地址用城市或是北中南东四区取代

数据离散化

目的:

1)降低数据复杂程度,让模型拟合更精确、更具解释力;

2)为了支持无法处理连续数值型字段的算法模型,如贝氏网络、关键规则、卡方检验;

3)可以到与目标变量(因变量)的变化趋势,更符合实际情况,便于实际中应用。

方法:

人工分离法:

1)根据专家个人意见来分离;

2)根据尝试来分离,如年龄分为20岁及以下、21-30、31-40、41-50、51-60、61岁及以上。

装箱法(Binning Method):

1)等宽(Equal-Width-Interval)装箱法;

2)等分(Equal-Frequency-Interval)装箱法。

数据扩充

数据扩充目的

现有数据不能满足分析要求,需要增加外部数据,或者通过已有的数据生成新的变量。

数据扩充内容

1.外部数据的扩充

如分别将一群样本在不同时期测量得到的前侧、后侧成绩合并

2.内部数据的扩充

利用已有的字段重新整合计算得到新的字段,如基于研究经验知道性别与年龄对收入存在交互作用,因此需要重新生成性别与年龄的交互变量。

数据合并与拆分

  • 数据合并与拆分的目的

满足分析时对数据个性化制定的需求

  • 数据合并

两部分拥有相同字段的数据合并在一起

  • 数据拆分

随机拆分

按比例拆分:分层抽样法


【使用SPSS进行数据合并、白能量重新编码、异常值诊断、数据选取等预处理操作】

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值