数据离散化


在机器学习中,常常有这样的一个做法,就是将数据给离散化,下面我们将探讨一下,为什么要将数据给离散化,这样做有什么好处呢?

1.离散化的原因

数据离散化是指将连续性的数据进行分段,让他变成一段段离散化的区间, 分段的原则有:等距离分段,等频率或优化的方法

1.1 算法的需要

在我们学习的决策树和朴素贝叶斯算法都是基于离散型的数据进行展开的,有效的离散化处理,可以减少算法的时间和空间的开销,提高系统对于样本的分类聚类能力和抗噪音能力

1.2离散化的特征更好的理解

比如:将人的体重40kg和80kg,我们可以将连续性的特征进行划分,将他们划分为胖和瘦

1.3可以有效的克服数据中隐藏的数据缺陷

2.离散化的优势

我们很少将连续型的数据作为逻辑回归的模型的特征输入,而是将数据离散为0,1特征,交给逻辑回归模型,这样做的好处:
1.离散特征的增加和减少都很容易,方便模型的迭代
2.悉数向量内积乘法运算速度快,,计算结果方便存储,容易扩展
3.离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是I,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰
4.逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合

3.总结

在我们的算法决策树和朴素贝叶斯中,将数据离散化可以很方便的排除异常数据的干扰,方便快速的提高算法的执行效率

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值