特征离散化概述

最新推荐文章于 2021-10-09 11:24:15 发布

Reacubeth

最新推荐文章于 2021-10-09 11:24:15 发布

阅读量885

点赞数 1

分类专栏：机器学习徐奕的专栏机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xyisv/article/details/81155567

版权

徐奕的专栏同时被 3 个专栏收录

228 篇文章 38 订阅

订阅专栏

机器学习

89 篇文章 27 订阅

订阅专栏

机器学习

57 篇文章 20 订阅

订阅专栏

定义
连续特征离散化是采取各种方法将连续的区间划分为小的区间，并将这连续的小区间与离散值关联起来。连续特征离散化的本质是：决定选择多少个分割点和确定分割点的位置。

背景
连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程，比如在LR模型，由于是广义线性模型表达能力有限，因此通过特征离散化来了提高非线性学习能力

步骤
1.对连续特征值按照某种指定的规则进行排序
2.初步确定连续属性的划分断点
3.按照某种给定的判断标准继续分割断点或合并断点
4.如果第三步得到判断标准的终止条件，则终止整个连续特征离散化的过程，否则继续按第三步执行
主要方法
等距离散
取值范围均匀划成n等份，每份的间距相等

等频离散
均匀分为n等份，每份内包含的观察点数相同

优化离散
大致有两类方法：
1. 卡方检验方法：（统计样本的实际观测值与理论推断值之间的偏离程度，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合）
– 分裂方法：找到一个分裂点看，左右2个区间，在目标值上分布是否有- 显著差异，有显著差异就分裂，否则就忽略。这个点可以每次找差异最大的点
– 合并方法：先划分如果很小单元区间，按顺序合并在目标值上分布不显著的相邻区间，直到收敛
2. 信息增益方法：
– 分裂方法：找到一个分裂点看，左右2个区间，看分裂前后信息增益变化阈值，如果差值超过阈值（正值，分列前-分裂后信息熵），则分裂。每次找差值最大的点做分裂点，直到收敛
– 合并方法：先划分如果很小单元区间，按顺序合并信息增益小于阈值的相邻区间，直到收敛

优点
1. 易于模型的快速迭代
2.稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展
3.离散化后的特征对异常数据有很强的鲁棒性
4 提升了逻辑回归模型的表达能力，加大拟合
5.模型更稳定
6.简化逻辑回归模型，降低其过拟合风险没有任何离散化算法可以适用于任何环境下，在实际应用时需要根据数据集的特点和学习环境等选择合适的离散化方法，而关联规则分析中的离散化既需要考虑各特征间的内在联系，又需要考虑在没有类信息的情况下对数据集进行有效的离散化。
参考
https://wenku.baidu.com/view/a6cffadd5122aaea998fcc22bcd126fff7055dd1.html

https://blog.csdn.net/evillist/article/details/77962435

Reacubeth

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
特征离散化概述

定义连续特征离散化是采取各种方法将连续的区间划分为小的区间，并将这连续的小区间与离散值关联起来。连续特征离散化的本质是：决定选择多少个分割点和确定分割点的位置。背景连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程，比如在LR模型，由于是广义线性模型表达能力有限，因此通过特征离散化来了提高非线性学习能力步骤 1.对连续特征值按照某种指定的规则进行排序 2....
复制链接

扫一扫

专栏目录