数据处理之连续数据离散化

最新推荐文章于 2025-02-22 21:56:53 发布

zjlamp

最新推荐文章于 2025-02-22 21:56:53 发布

阅读量2.1w

点赞数 16

分类专栏：数据处理文章标签：数据处理离散化

本文链接：https://blog.csdn.net/zjlamp/article/details/81368335

版权

一些数据挖掘算法，比如Apriori算法等，要求数据是分类属性形式，需要进行连续数据离散化。

连续数据离散化就是在数据的取值范围内，设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。

离散化涉及两个子任务：

1、确定分类数

2、将连续属性值映射到这些分类值

举例1，先导入数据，如下：

常用的离散化方法：

1、等宽法

将数据的值域分成具有相同宽度的区间。区间的个数根据数据特点或用户指定。

缺点是对离群点比较敏感，不均匀地分布数据。

R语言：

v1 = ceiling(data[,1]*10) #宽度设为1，进行等宽离散化

Python：

import pandas as pd
data = pd.read_excel('discretization_data.xls')
data = data[u'肝气郁结证型系数'].copy()
k = 4

d1 = pd.cut(data,k,labels=range(k))

2、等频法

将相同数量的记录放进每个区间。

缺点是可能将相同的数据分到不同的区间。

R语言：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zjlamp

关注关注

16
点赞
踩
73

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

连续数据的离散化

weixin_45553106的博客

11-10

4064

离散化的优势在特征工程中，我们常常需要对连续型特征进行离散化处理，下面对离散化的优势做简单总结: 映射到高维度空间,用linear的LR更快,且兼具更好的分割性稀疏化,0,1向量内积乘法运算速度快,计算结果方便存储,容易扩展单变量离散化N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合离散特征的增加和减少都很容易，易于模型的快速迭代模型稳定,收敛度高...

连续数据的离散化处理--pandas.cut与pandas.qcut

qq_45734454的博客

11-08

2062

Python实现连续数据的离散化处理主要基于两个函数，pandas.cut和pandas.qcut，今天主要介绍这两个函数。我们先回忆一下，连续数据离散化方法中无监督学习方法主要有两种：等宽法等宽法即是将属性值分为具有相同宽度的区间，区间的个数k根据实际情况来决定。比如属性值在[0，60]之间，最小值为0，最大值为60，我们要将其分为3等分，则区间被划分为[0,20] 、[21,40] 、...

参与评论您还未登录，请先登录后发表或查看评论

连续数据离散化

十三

06-02

2662

#数据规范化 import pandas as pd datafile = 'eeeee/chapter4/demo/data/discretization_data.xls' #参数初始化 data = pd.read_excel(datafile) #读取数据 data = data[u'肝气郁结证型系数'].copy() k = 4 #等宽离散化 d1 = pd.cut(data, k,...

控制理论——连续系统离散化（常见离散方法及直观理解连续系统和离散系统之间的关系）

2402_85761732的博客

02-22

738

本文介绍了连续系统离散化的方法，以及通过比较连续时间系统和离散时间系统对单位阶跃输入的响应，从而加深对连续系统和离散系统二者关系的理解

连续数值的离散化方法

11-22

详细描述了连续数据离散化的方法，阐述的比较详细

一些连续离散化方法

m0_63024355的博客

11-12

1873

生成一组连续数据% 定义自定义的离散化规则% 阈值% 使用自定义规则进行离散化% 将离散结果转换为整数值（0和1）% 显示结果。

机器学习-数据标准化与连续属性离散化（含数据集及说明）

最新发布

03-04

而在处理连续属性时，根据不同的应用场景和机器学习算法需求，选择合适的离散化方法将有助于改善算法效果。为了更好地理解和应用这些方法，文章附带的数据集和相关说明将为读者提供实际操作的示例。通过对数据集...

使用pandas实现连续数据的离散化处理方式(分箱操作)

09-18

离散化处理对于数据挖掘和机器学习有着重要的作用，例如，它可以减少数据的维度，降低模型复杂度，同时将连续变量转化为分类变量，便于进行类别间的比较和分析。在实际应用中，我们需要根据数据的特性选择合适的离散...

disc_MDLP.rar_matlab 离散化_数据离散化_离散化 matlab_连续离散_连续数据离散

07-15

数据离散化的方法对于不能处理连续问题的算法可先进行离散化 然后在进行相关工作

连续型数据的离散化 代码实操

weixin_43920520的博客

01-29

457

连续型数据的离散化 代码实操

关于连续值离散化[MODL]

liuzhiqiangruc

10-18

1146

将连续值离散化的问题，在数据挖掘和机器学习的任务中并不鲜见，当然离散化的方法也有很多。本文将要介绍的是一种基于数据标签（label）来对连续数据值做离散化分割的监督学习方法。问题：考虑有如下数据： 1，0 2，0 3，0 4，0 5，0 6，1 7，1 8，1 9，1 10，1 第一列是连续值数...

【python数据分析】：数据预处理之连续数据离散化

weixin_40637477的博客

05-04

3708

连续属性变换成分类属性，即连续数据离散化。在数值的取值范围内设定若干个离散划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表每个子区间中的数据值。连续数据离散化：等宽法 / 等频法等宽法：cut方法 → 将数据均匀划分成n等份，每份的间距相等举例：有一组人员年龄数据，希望将这些数据划分为“18到25”,“26到35”,“36到60”,“60以上”几个面元。 ages=[20,22,25,27,21,23,37,31,61,45,41,.

机器学习——特征工程——数据离散化（时间离散，多值离散化，连续数据离散化，分位数，聚类法，频率区间，二值化）

huangguohui_123的博客

04-29

9560

离散化：就是把无限空间中有限的个体映射到有限的空间中。数据离散化操作大多是针对连续数据进行的，处理之后的数据值域分布将从连续属性变为离散属性。 离散化方式会影响后续数据建模和应用效果：使用决策树往往倾向于少量的离散化区间，过多的离散化将使得规则过多受到碎片区间的影响。关联规则需要对所有特征一起离散化，关联规则关注的是所有特征的关联关系，如果对每个列单独离散化将失去整体规则性。...

连续数值特征离散化

weixin_30307921的博客

02-12

280

特征工程中很常见的一步，特征离散化。最优离散化问题是一个 NP-hard问题。所以所谓的离散化方法只是某种启发式，某种情况下及考量下最优的方法。好处 1. 减少连续特征的个数，减少存储空间大小 2. 更容易被接受。人更容易接受离散的范围，而不是准确的数值。也就是更容易理解，使用和解释 3. 离散化使得部门算法更准确和迅速 4. 有些算法只能应用于离散型数据 5. 降低过拟合一般...

Python 连续数据离散化最通俗的理解与操作

SunnyRivers

01-05

1万+

前言一些数据挖掘算法，特别是某些分类算法，如ID3算法、Apriori算法等，要求数据是分类属性形式。这样，常常需要将连续属性变换成分类属性，即连续属性离散化。 离散化是干啥连续属性离散化就是在数据的取值范围内设定若干个离散的划分点，将取值范围划分为一些离散化的区间，最后用不同的符号或整数值代表落在每个子区间中的数据值。所以，离散化涉及两个子任务：确定分类数以及如何将连续属性值映射到这些分类值。常用的离散化方法常用的离散化方法有等宽法、等频法和（一维）聚类。（1）等宽法将属性的值域分成具有相同宽

连续属性离散化