数据预处理第3讲:归一化与离散化

本文介绍了数据预处理中的关键步骤——归一化和离散化。归一化通过缩放样本至单位范数,适用于平方形式的操作。Python提供了便捷的归一化工具。离散化则是将连续变量分割为离散值,增强模型可解释性。K-bins离散化使用特定间隔将特征分段,并常用One-hot编码。此外,二值化将数值特征转化为布尔值,常用于伯努力分布假设的场景和文本处理。
摘要由CSDN通过智能技术生成

论文合作、课题指导请联系QQ2279055353

归一化

归一化(Normalization), 是将逐个样本缩放成单位范数(方差)的过程。归一化过程对于平方的形式,例如点积,或者量化成对样本的核函数时是有用的。Python函数normalize()提供了一种快速简单的归一化操作,主要使用L1, L2范数。

例子

在这里插入图片描述
模块preprocessing进一步提供了实用类Normalizer, 使用Transformer API实现相同的归一化操作。

normalizer = preprocessing.Normalizer().fit(X)  # fit does nothing

在这里插入图片描述

离散化

离散化(Discretization, or quantization or binning), 是用来分割连续变量成为若干个离散值的一种方法。One-hot编码的离散化特征使得模型更复杂,但更具可解释性。

K-bins离散

KBinsDiscretizer类将连续特征离散化成k个bins, 由函数KBinsDiscretizer()实现。
在这里插入图片描述
默认输出是一个One-hot编码的稀疏矩阵。对于每一个特征,fit方法计算bin数量与边长,然后定义间隔。在上例种,

  • 特征1:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值