【数据分析】数据预处理—最小-最大规范化、z-score规范化、小数定标规范化

数据预处理

数据变换

  • 数据变换的目的是将数据转换成适合分析建模的形式
    • 前提条件:尽量不改变原始数据的规律
    • 数据规范化
      • 最小-最大规范化
      • z-score规范化
      • 小数定标规范化
    • 数据离散化
      • 非监督离散化
      • 监督离散化
        在这里插入图片描述在这里插入图片描述在这里插入图片描述

数据规范化

  • 数据规范化
    • 目的:将不同数据(属性)按一定规则进行缩放,使它们具有可比性

    • 例如,我们需要考察学生A和学生B的某门课程成绩。A的考试满分是100分(及格60分),B的考试满分是150分(及格90分)。显然,A和B的100分代表着完全不同的含义。在这里插入图片描述

    • 如何用一个同等的标准来比较A与B的成绩数据呢?

最小-最大规范化

  • 对原始数据进行线性变换。把数据A的观察值v从原始的区间[minA,maxA]映射到新区间[new_minA,new_maxA]
    • 0-1规范化又称为归一化在这里插入图片描述
    • 数理依据:在这里插入图片描述
    • 例:假设某属性规范化前的取值区间为[-100,100],规范化后的取值区间为[0,1],采用最小-最大规范化 66,得在这里插入图片描述
  • 假设A的课程成绩为70分(0-100分),B的课程成绩为110分(0-150分),采用最小-最大规范化来比较A和B的成绩在这里插入图片描述用最小-最大规范化后得出B的成绩更好

z-score规范化

  • 最大最小值未知,或者离群点影响较大时,假设数据服从正态分布
    • 某一原始数据(v)与原始均值的差再除以标准差,可以衡量某数据在分布中的相对位置在这里插入图片描述
    • 假设某属性的平均值、标准差分别为80、25,用z-score规范化 66在这里插入图片描述在这里插入图片描述
  • 例:假设学生的成绩分布符合正态分布,某素质课考试的平均分为73分,标准差为7分,A得78分;实践课考试的平均分为80分,标准差为6.5分,A得83分。那么A的哪一门考试成绩比较好?在这里插入图片描述采用z-score规范化得出A的素质课成绩要优于实践课成绩

小数定标规范化

  • 通过移动小数点的位置来进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。在这里插入图片描述
  • 比如属性A的取值范围是-999到88,那么最大绝对值为999,小数点就会移动3位,即新数值=原数值/1000。那么A的取值范围就被规范为-0.999到0.088。

小结

  • 在这里插入图片描述
  • 8
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

之墨_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值