实时数据清洗扩维
背景
风控平台接入的业务数据类型及数据量越来越多,且数据源多样化,为提升业务接入效率、数据质量、策略上线效率、特征工程沉淀需搭建特征工程(实时数据清洗及扩维)平台
逻辑层次
流程
1.接入层对接入数据进行统一封装调用数据处理层进行数据清洗及特征扩维。
2.数据处理层根据数据来源信息,拉取数据清洗配置进行数据清洗。
3.数据处理层根据数据来源信息,拉取数据扩维配置进行特征扩维。
数据清洗
校验功能
1.提供枚举值校验函数,数据类型校验函数等功能。
转换-填充功能
2.提供空值填充函数,大小写转换函数,空格去除函数等功能
采用函数化方案实现,支持嵌套函数对单个字段进行多次转换。例如:针对paymentType字段进行转换校验,contain(upper(paymentType),"xpay,xx,xx"),通过扩展函数支持后续扩展功能。
以上功能分为校验、清洗两类,校验函数仅标记字段异常,写入异常字段列表,清洗函数用于对字段进行转换并覆盖原有字段值,若清洗失败也写入异常字段列表。(异常字段列表用于数据质量统计)
特征扩维
1.提供对原始字段信息抽取,加工功能:例如
关键特征关联函数:ip扩维地理位置信息、手机画像及归属地等,uid注册时间
专用uid转区域函数:uid转换用户区域
日期格式化函数:日期格式化到天,小时,分等粒度,用户注册至今天数等
文本处理函数:文本内容进行预处理或抽取联系方式等
扩维是在原有字段基础上进行关联,抽取出更多特征数据,扩维出的特征增加统一前缀进行区分。
数据应用
1.保留原始输入数据用于回溯。(保留副本)
2.清洗后的数据+扩维后的数据构成当次请求数据宽表,传入策略服务用于规则计算。
3.前端提供按业务字段选择函数处理的配置能力,函数库支持扩展。
总结
通过以上特征工程对实时风控接入数据进行预处理,然后再进入策略进行匹配,从而充分挖掘数据特征,提升策略召回率。