特征预处理
文章平均质量分 72
lonely_square_three
风一样的美男子
展开
-
相关性检验之Pearson系数及python实现
皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。原创 2017-06-21 16:59:41 · 81399 阅读 · 12 评论 -
python实现数据离散化
数据挖掘中有些算法,特别是分类算法,只能在离散型数据上进行分析,然而大部分数据集常常是连续值和离散值并存的。因此,为了使这类算法发挥作用,需要对数据集中连续型属性进行离散化操作。那么,如何对连续型属性离散化呢?常见的有等宽分箱法,等频分箱法:等宽分箱法的思想是,将数据均匀划分成n等份,每份的间距相等。等频分箱法的思想是,将观察点均匀分成n等份,每份的观察点数相同。在对数据离散化前,原创 2017-06-21 19:57:40 · 16150 阅读 · 3 评论 -
数据预处理之缺失值处理
缺失值产生原因数据集中部分数据的缺失是一件很头疼的事情,不但增大了数据集的不确定性,也影响了算法的执行。缺失值产生的原因主要有以下几点: 1.有些信息暂时无法获取,或获取信息的成本过高 2.信息遗漏,即人为的原因,如收集信息不认真、忘记填写信息等 3.缺失值本身就不存在,比如单身狗的女朋友缺失值的影响1.数据集丢失了大量的信息 2.数据集表现出的不确定性增大,使得获取数据潜在规律的难度加大原创 2017-08-09 16:37:18 · 11413 阅读 · 0 评论 -
数据挖掘之建模过程
数据挖掘建模过程原创 2017-08-09 18:48:04 · 12314 阅读 · 0 评论 -
数据预处理之异常值处理
异常值,即在数据集中存在不合理的值,又称离群点。比如年龄为-1,笔记本电脑重量为1吨等,都属于异常值的范围。从集合角度来看,异常值即离群点原创 2017-08-09 19:53:51 · 82533 阅读 · 1 评论 -
数据预处理之数据标准化
数据标准化的意义在对数据集建模前,常常要对数据的某一特征或几个特征进行规范化处理,其目的在于将特征值归一到同一个维度,消除比重不平衡的问题。常用的标准化方法有 最大-最小标准化、零-均值标准化 和 小数定标标准化。原创 2017-08-11 19:45:07 · 2687 阅读 · 0 评论 -
数据预处理之数据离散化
数据离散化的意义数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:1**.算法需要:**比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。原创 2017-08-11 20:23:30 · 18753 阅读 · 0 评论 -
数据预处理之特征选择
特征选择的意义在对数据进行异常值、缺失值、数据转换等处理后,我们需要从当前数据集中选出有意义的特征,然后输入到算法模型中进行训练。对数据集进行特征选择主要基于以下几方面的考虑:1.冗余的特征会影响阻碍模型找寻数据潜在的规律,若冗余的特征过多,还会造成维度容灾,占用大量的时间空间,使算法运行效率大打折扣。2.去除不相关的特征会降低学习任务的难度,保留关键的特征更能直观的看出数据潜在的规律。原创 2017-08-11 21:32:11 · 8143 阅读 · 1 评论