特征工程
菜不卷
过去我没得选,现在我想做好人。
展开
-
峰度和偏度的计算方法&偏度的处理
pandas的dataframetrain_data['base_FVC'].skew()train_data['base_FVC'].kurt()scipyfrom scipy import stats #x为列表stats.skew(x)stats.kurtosis(x)原创 2020-09-20 10:28:55 · 3005 阅读 · 0 评论 -
特征构造通用方法
统计量特征1.四分位树,中位数,均值,标准差,偏差,偏度,峰度,离散系数;peek,脉冲等图形化的特征。2.长短期统计量。(控制1中统计数据的时间长短)3.时间衰减。(给不同时间的特征不同的权重)周期值1.前n个周期相同时间段的同期值。++其统计量。2.同比/环比数据分桶等距分桶,等频分桶,Best-KS分桶,卡方分桶。特征组合1.类别特征与类别特征:笛卡尔积2.类别特征与数值特征:现将数值特征进行分桶。3.数值特征与数值特征:加减乘除,二阶差分。...原创 2020-08-08 19:40:00 · 595 阅读 · 0 评论 -
特征工程概括图
这是我做了几个数据挖掘项目和参考一本数据挖掘书总结的特征工程概括图。因为数据的差异,特征工程各个步骤的顺序也会存在差异。随时更新和纠错。原创 2020-06-16 12:07:11 · 443 阅读 · 0 评论