python数据挖掘与实战第四章数据预处理数据离散化代码纠错

吃撑的鲸

于 2021-06-03 17:40:00 发布

阅读量323

点赞数 1

分类专栏： python 数据挖掘数据分析文章标签： python 数据挖掘数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46734355/article/details/117530340

版权

python 同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

在python数据挖掘与实战的第四章代码4-3的数据离散化中发现问题，纠正后代码如下：

标注了改动1.2.3.4.5

# -*- coding: utf-8 -*-
# 数据规范化
import pandas as pd

datafile = r'D:\mechine learning\Data Analysis and Mining\chapter4\demo\data\discretization_data.xls'  # 参数初始化
data = pd.read_excel(datafile)  # 读取数据
data = data[u'肝气郁结证型系数'].copy()
k = 4

d1 = pd.cut(data, k, labels=range(k))  # 等宽离散化，各个类比依次命名为0,1,2,3

# 等频率离散化
w = [1.0 * i / k for i in range(k + 1)]  # [0.0, 0.25, 0.5, 0.75, 1.0]
w = data.describe(percentiles=w)[4:4 + k + 1]  # 使用describe函数自动计算分位数
w[0] = w[0] * (1 - 1e-10)
d2 = pd.cut(data, w, labels=range(k))
#  可以直接用d2 = pd.qcut(data, k, labels=range(k))代替  # 等频率离散化，各个类比依次命名为0,1,2,3


from sklearn.cluster import KMeans  # 引入KMeans

if __name__ == '__main__': # 改动4
    kmodel = KMeans(n_clusters=k, n_jobs=4)  # 建立模型，n_jobs是并行数，一般等于CPU数较好
    kmodel.fit(data.values.reshape((len(data), 1)))  # 改动1   将data用reshape改为一个n*1的数组。
    c = pd.DataFrame(kmodel.cluster_centers_).sort_values(0, ascending=True)  # 改动2  将训练得到的聚类中心，按从小到大排序）
    w = c.rolling(2).mean().iloc[1:]  # 改动3 相邻两项求中间点，作为边界点
    w = [0] + list(w[0]) + [data.max()]  # 把首末边界点加上
    d3 = pd.cut(data, w, labels=range(k))


def cluster_plot(d, k):  # 自定义作图函数来显示聚类结果
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

    plt.figure(figsize=(8, 3))
    for j in range(0, k):
        plt.plot(data[d == j], [j for i in d[d == j]], 'o')

    plt.ylim(-0.5, k - 0.5)
    return plt


if __name__ == '__main__':  #改动5
    cluster_plot(d1, k).show()
    cluster_plot(d2, k).show()
    cluster_plot(d3, k).show()

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
python数据挖掘与实战第四章数据预处理数据离散化代码纠错

在python数据挖掘与实战的第四章代码4-3的数据离散化中发现问题，纠正后代码如下：标注了改动1.2.3.4.5# -*- coding: utf-8 -*-# 数据规范化import pandas as pddatafile = r'D:\mechine learning\Data Analysis and Mining\chapter4\demo\data\discretization_data.xls' # 参数初始化data = pd.read_excel(datafile)
复制链接

扫一扫

专栏目录

吃撑的鲸 CSDN认证博客专家 CSDN认证企业博客

码龄4年

8: 原创

81万+: 周排名

163万+: 总排名

5107: 访问

: 等级

104: 积分

2: 粉丝

3: 获赞

6: 评论

16: 收藏

私信

关注

热门文章

分类专栏

金融风控 6篇
数据挖掘 1篇
python 6篇
数据分析 2篇
机器学习 4篇
hadoop 2篇

最新评论

python数据挖掘与实战第四章数据预处理数据离散化代码纠错
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客介绍了数据离散化在数据预处理中的应用，非常实用。我觉得CSDN博主可以继续深入讲解数据预处理中的其他技术，比如数据清洗、数据归一化等。这样的技术文章对其他用户也会有很大的帮助。期待CSDN博主的下一篇文章，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
金融风控训练营赛题理解(task 5 模型融合)学习笔记
肃霜涤场: 请问，在模型融合中是基回归器用性能较好的回归器好，还是元回归器用性能较好的更好呢
金融风控训练营赛题理解(task 4 建模与调参)学习笔记
不吃西红柿丶: 可以可以，过程非常详细
金融风控训练营赛题理解(task 1)学习笔记
吃撑的鲸: 向大佬致敬！
金融风控训练营赛题理解(task 1)学习笔记
LaoYuanPython: 欢迎博主入驻CSDN！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。