特征工程
NanciZhao
这个作者很懒,什么都没留下…
展开
-
类别型特征
无序特征: one-hot encoding, 比如城市有序特征:Label encoding, 比如版本号决策树是如何识别离散特征和连续特征的?决策树在选择特征进行分类时,一个特征被选择后,之后还会选择到这个特征吗?决策树如何处理无序类别和有序类别特征?...原创 2019-12-03 14:03:11 · 320 阅读 · 0 评论 -
特征工程1
一、特征衍生/生维交叉衍生二、特征筛选/降维2.1 共线性分析2.2 IV值处理2.3 Gini/Info Gain2.4 stepwise2.5 PCA / AHP2.6 variable threshold2.7 卷积原创 2019-11-28 14:40:06 · 120 阅读 · 0 评论 -
SMOTE过采样技术原理与实现
1.这种操作的原理是什么,目的是什么目的是合成分类问题中的少数类样本,使数据达到平衡;其中,样本数量过少的类别称为“少数类”。原理和思想:合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a,b之间的连线上随机选一点作为新合成的少数类样本。算法流程:a.对于少数类中每一个样本a,以欧式距离为标准,计算它到少数类样本集中所有样本的距离,得到其k近邻;b...原创 2019-11-22 19:39:12 · 8818 阅读 · 1 评论 -
不均衡类别的采样方法
一、为什么样本比例失调对模型精度会有影响二、有哪些好的处理方法原创 2019-11-21 15:47:00 · 364 阅读 · 0 评论 -
scikit-learn的PCA降维实战
1. 降维,降多少维度呢?降低的标准是什么:没有一个标准,这应该是一个超参数,通过pipeline和gridsearchCV进行搜索;2.如何使用sklearn中PCA的APIa. n_components如何设置比例:n_components如何设置比例 n_components = 0.95 (表示提取95%的主成分)n_components ='mle' : API会根据MLE...原创 2019-11-21 15:45:28 · 475 阅读 · 0 评论 -
用xgboost获取特征重要性及应用
一、xgboost对特征重要性进行排序的原理(即为什么xgboost可以对特行的重要性进行排序)根据结构分数的增益情况,计算选择哪个特征的哪个分割点;某个特征的重要性,就是它在所有树中出现的次数之和。二、如何绘制特征重要性条形图三、如何根据特种的重要性进行特征选择特征选择的阈值thresh是自己确定的,利用API SelectFromModel(),输入thresh,再tran...原创 2019-11-20 21:29:57 · 2518 阅读 · 0 评论 -
机器学习模型构建流程
参考blog:https://blog.csdn.net/qq_36666756/article/details/78375408一、观察数据,观察数据的哪些方面特征二、模型有什么特点三、数据特征如何与模型相结合四、模型如何优化、如何调参、如何处理过拟合过拟合的原因,有哪些避免过拟合的trick如何避免网络的过拟合如何网络调优什么是学习曲线;如何绘制如何看过拟合;欠拟...原创 2019-11-12 14:23:45 · 1754 阅读 · 0 评论 -
数据预处理2-回归问题某些模型的数据要符合正态分布
1. 为什么要符合正态分布?有些模型的应用条件就是要求数据满足正态性分布的,比如说:贝叶斯、逻辑回归、KNN、Kmean等设计到概率分布、参数距离比较等,转换为正态分布,模型条件更充足。其次,正态分布,数据的泛化性高。因为自然界很多事物的概率密度很大是正态分布的。最后,从目标分布来说,偏态分布会导致label数据的MSE出现误导,或许结果看着很小,但实际结果很大。2.如何查看数据是...原创 2019-11-12 14:17:18 · 4973 阅读 · 0 评论 -
数据清洗与预处理
0、理解特征一、观察数据类型int/float/str/.........二、Date类型特征的处理:如果有一个字段是date类型的,例如'%y-%m-%d',则应该分别提取y,m,d信息,拆分为三个字段存入data['y'], data['m'], data['d'],并删除原来的data[date]字段。三、缺失值的处理3.1 缺失值填充:同类别数据的特征均...原创 2019-11-12 09:20:14 · 568 阅读 · 0 评论