特征工程
QueenieK
这个作者很懒,什么都没留下…
展开
-
特征工程-数据归一化和标准化
定义归一化:Xi−XminXmax−XminXi−XminXmax−Xmin\frac{X_i-X_{min}}{X_{max}-X_{min}} 标准化:Xi−μσXi−μσ\frac{X_i-\mu}{\sigma} 其中 μμ\mu 和 σσ\sigma 代表样本的均值和标准差, XmaxXmaxX_{max} 为最大值, XminXminX_{min} 为最小值。本质归...原创 2018-04-26 10:29:19 · 783 阅读 · 0 评论 -
数据不平衡
转自:https://blog.csdn.net/lujiandong1/article/details/52658675这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本...转载 2018-04-26 16:00:56 · 5045 阅读 · 2 评论 -
数据与特征处理
不同数据类型处理数值型统计值:max,min,mean,std(方差)离散化 比如将价格分成不同的段(可以等宽也可以不等宽),每一段表示一个向量,不同的价格可能会是同一个向量。Hash分桶每个类别下对应的变量统计值histogram(分布状况)可将数值型 => 类别型幅度调整/归一化类别型one-hot编码/哑变量 比如红、黄、蓝分别对应一个向量,...原创 2018-04-27 10:09:05 · 713 阅读 · 0 评论 -
特征处理之统计特征
特征处理之统计特征历届的Kaggle/天池比赛,天猫/京东排序和推荐业务线里模型用到的特征 1.加减平均:这个用户所买商品高于所有用户购买商品平均价格的多少(权衡一个人的消费能力),用户连续登录天数超过平均多少(表明这个用户对该产品的黏性) 2.分位线:商品属于售出商品价格的多少分位线处。(比如20%,说明20%的人买东西都不会低于这个价格)。 3...转载 2018-04-27 10:12:32 · 9290 阅读 · 0 评论 -
特征选择
特征选择特征选择和降维的不同:特征选择只是删除了原始特征里和结果预测关系不大的特征,后者做特征的计算组合构成了新的特征。 特征选择包含:过滤型、包裹型、嵌入型过滤型方法:评价单个特征和结果之间的相关程度,排序留下Top相关的部分。评价方式:Pearson相关系数、互信息缺点:没有考虑到特征之间的关联作用,可能把有用的关联特征踢掉。...转载 2018-04-27 10:15:16 · 281 阅读 · 0 评论