机器学习初级篇7——数据离散化

最新推荐文章于 2024-03-16 11:56:44 发布

zhenteliu

最新推荐文章于 2024-03-16 11:56:44 发布

阅读量1.6k

点赞数 4

文章标签：机器学习数据的离散化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhenteliu/article/details/103001440

版权

本文介绍了数据离散化的基本概念、目的及实现方法。离散化旨在简化数据结构，通过分组和独热编码处理连续属性。文中以身高数据为例，展示了自动分组（如pd.qcut）和自定义分组（如pd.cut）的过程，并讨论了离散化在机器学习中的重要性。

摘要由CSDN通过智能技术生成

机器学习初级篇7——数据离散化

数据的离散化

数据的离散化

一.什么是数据的离散化

连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。

二.为何要进行数据的离散化

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。
下面举个例子：

晴天阴天下雨

猫狗猪

如果不做离散化，我们把晴天标注为1，阴天标注为2，下雨标注为3，那么对于计算机来说1+2=3，就真的是一个晴天和一个阴天在一起的时候就等于一个雨天吗？实际上是没有这种物理意义的，在或者说，猫标注为-1，狗标注为0，猪标注为1，难道一只猫和一直猪在一起的时候就等同于一只狗吗？

所以，在机器学习中，我们需要做数据离散化，比如晴天的时候是100，阴天的时候是010，下雨的时候是001，这样对于计算机来说是可识别的，而且对于实际来说也没有任何的物理意义。

三.如何实现数据的离散化

基本流程：

1.对数据进行分组

a.自动分组：pd.qcut(data,组数)
b.自定义分组：pd.cut(data,bins) 其中bins是一个列表，里面存储分组的临界值。
c.在分组中，通常会与value_counts()搭配使用，统计每组的个数。
· series.value_counts():统计分组情况并查看分组区间的个数。

2.对分好组的数据求独热编码

pandas.get_dummies(data,prefix=“前缀名”)
解释：data:为array_like,Series,or DataFrame
prefix:分组的名字

代码实现：

下面看下代码的实现：
我们先来准备一组身高数据，数据类型为Series,并查看下数据结构

#1.数据准备
list1=[165,167,178,177,168,185

最低0.47元/天解锁文章

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习初级篇7——数据离散化

机器学习初级篇7——数据离散化数据的离散化一.什么是数据的离散化二.为何要进行数据的离散化三.如何实现数据的离散化基本流程：1.对数据进行分组2.对分好组的数据求独热编码代码实现：四.总结1.对于离散化的解释：2.为什么进行数据的离散化：3.如何进行离散化：数据的离散化一.什么是数据的离散化连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。