特征工程基础

大纲


  • 可用性评估:获取难度、覆盖率、准确率
  • 特征清洗:清洗异常样本
  • 采样:数据不均衡、样本权重
  • 单个特征:无量纲化(标准化、归一化)、二值化、离散化、缺失值(均值)、 - 哑编码(一个定性特征扩展为N个定量特征)
  • 数据变换:log、指数、Box-Cox
  • 降维:主成分分析PCA、线性判别分析LDA、SVD分解
  • 特征选择:Filter(相关系数、卡方检验)、Wrapper(AUC、设计评价函数A*、Embedded(L1-Lasso、L2-Ridge、决策树、DL)
  • 衍生变量:组合特征
  • 特征监控:监控重要特征,fa特征质量下降
    模型生成流程图
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值