数据挖掘项目-资金流入流出预测(特征工程)

特征工程

基于数据分析与探索提取潜在有价值的特征

特征工程重要性

  1. 特征越好,模型的性能越出色
  2. 特征越好,构建的模型越简单
  3. 特征越好,模型的灵活性越强

特征提取与特征组合

简单粗暴的特征组合方式:

  • 简单粗暴的进行加、减、乘、除、log、exp等运算
  • 易于生成大量特征,但会易出现过拟合问题,且不易于解释

建议的特征提取与组合方式:

  • 理解问题背景,开发想象力,并做数据分析与探索
  • 以时间序列问题为例,常见的特征类别包括统计量(最大值、最小值、中位数、偏度、峰度等)、排序(各统计量在历史同期的排名)、分位数(各统计量在历史同期排名的分位数)等等; 《03.时间序列规则与baseline》的周期因子可视为特征组合
  • 以推荐系统为例,常见的特征类别包括用户特征、商品特征、行为特征(按时段统计)等等;可对其中的离散型特征直接做组合
特征处理——“劣态优胜”

特征工程通常会提取出大量特征,该如何选择出好的特征子集?

  • 劣态:剔除几乎无关的特征,保留大量特征

  • 处理自变量间共线性:可通过特征组合处理;A与B存在共线性,保留A,构造A/B
    在这里插入图片描述

  • 劣态:剔除几乎无关的特征,保留大量特征

  • 优胜:挑选出良好特征,组成最优特征子集
    在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值