【风控】特征挖掘-CSDN博客

本文链接：https://blog.csdn.net/zkw54334/article/details/147888202

在机器学习和数据挖掘项目中，特征挖掘（Feature Engineering）是一项关键任务，贯穿于模型训练的各个阶段。一个完善的特征挖掘流程不仅能够提升模型性能，还能保证系统的可维护性与可扩展性。以下内容将从原始数据分析、数据清洗、特征设计与生成、特征评估，以及特征上线、监控、维护和下线等方面，系统阐述特征挖掘的全流程和常见实践。

一、概述

迭代非线性：在实际项目中，特征挖掘并非严格的线性流程，各环节可能反复进行，随着模型反馈不断优化。
多角色协作：数据工程师、业务专家、算法工程师需紧密配合，共同参与特征的落地与验证。

二、原始数据分析

原始数据分析是特征挖掘的第一步，旨在深入理解数据来源与特性，为后续清洗与建模奠定基础。主要包括：

数据产生逻辑分析
- 梳理业务流程，明确数据字段含义与产生条件。
- 确认历史数据与实时数据的接入方式及延迟情况。
数据覆盖率分析
- 统计各字段缺失率，识别信息缺失重点区域。
- 分析时序数据的采样间隔与完整度，确保时效性。
数据稳定性分析
- 监测重要字段的分布变化，识别异常波动或漂移。
- 采用滑动窗口方法，对比不同时间段的分布特征。
数据时效性分析
- 确定数据更新频率，评估特征侧重实时还是历史。
- 分析关键业务事件对数据的影响时滞。

三、数据清洗

数据清洗旨在提高原始数据质量，减少不必要的噪声与偏差。常用方法包括：

重复数据处理
- 去重策略：根据主键或业务关键词进行精确去重，避免遗漏。
- 合并策略：对多条冗余记录进行合并或聚合。
缺失值处理
- 分类缺失：将缺失作为一种特殊取值或编码；
- 数值缺失：采用均值、中位数、众数、插值或模型预测等方法填补。
异常值处理
- 统计方法：基于箱线图（IQR）或标准差过滤离群点；
- 规则方法：结合业务阈值限定异常范围；
- 修复或删除：判断异常原因后，选择修复（截断、平滑）或删除。

四、特征设计与生成

特征的质量直接决定模型的上限。特征设计与生成可分为：

基于业务逻辑的特征
- 从业务流程中提炼关键指标，如用户行为次数、时长、转化漏斗各环节停留时长等。
- 融合外部信息，如节假日、天气、行业指数等。
基于 RFM 模型的特征
- R（Recency，最近一次发生时间）、F（Frequency，发生次数）、M（Monetary，发生金额）三维度特征。
- 扩展：如用户生命周期、复购间隔、消费金额分布等。
自动组合特征
- 利用交叉、加减乘除、离散化后交叉等生成多维组合特征。
- 借助 Featuretools、TsFresh 等自动化工具批量生成候选特征。

五、特征评估

在候选特征池中，通过多维度指标筛选优质特征：

覆盖率：统计特征在数据集中的可获取比例。
稳定性：观察特征在不同时间窗口、不同分群中的分布变化。
离散度：衡量特征的取值分散程度，避免低方差特征。
时间相关性：对时序特征，需评估滞后效果与前瞻性。
模型表现：将特征纳入 baseline 模型，评估对指标（AUC、F1、KS 等）的提升贡献。

六、特征上线与部署

将线下验证通过的特征部署到线上环境，一般有两种方式：

实时计算部署
- 流式计算：基于 Kafka、Flink 等框架，接收事件后实时计算并返回。
- 低延迟场景，如风控打分、个性化推荐等。
离线批量计算部署
- 调度作业：利用 Airflow、Oozie 等定时任务计算全量特征，并存储至特征库（HBase、Redis 等）。
- 批量查询：模型或规则在线调用时，直接从缓存中获取。
  陪跑 & 验证：新特征上线初期，先进行空跑（不参与线上决策），积累足够数据后从以下三方面验证：