【冰糖Python】数据等宽离散化、等频离散化

       在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考

1. 等宽离散化

   使用pandas中的cut()函数进行划分

import numpy as np
import pandas as pd

# Discretization: Equal Width #
# Datas: Sample * Feature
def Discretization_EqualWidth(K, Datas, FeatureNumber):
    DisDatas = np.zeros_like(Datas)
    for i in range(FeatureNumber):
        DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1))
        DisDatas[:, i] = DisOneFeature
    return DisDatas

2. 等频离散化

    pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop’,则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()

import numpy as np
import pandas as pd

# Discretization: Equal Frequency #
# vector: single feature
def Rank_qcut(vector, K):
    quantile = np.array([float(i) / K for i in range(K + 1)])  # Quantile: K+1 values
    funBounder = lambda x: (quantile >= x).argmax()
    return vector.rank(pct=True).apply(funBounder)

# Discretization: Equal Frequency #
# Datas: Sample * Feature
def Discretization_EqualFrequency(K, Datas, FeatureNumber):
    DisDatas = np.zeros_like(Datas)
    w = [float(i) / K for i in range(K + 1)]
    for i in range(FeatureNumber):
        DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K)
        #print(DisOneFeature)
        DisDatas[:, i] = DisOneFeature
    return DisDatas

 

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰糖不在家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值