第四范式OpenMLDB在金融风控数据库的计算优化实践

本文介绍了第四范式OpenMLDB在智能风控领域的应用,特别是其在特征计算优化方面的优势。OpenMLDB为离线和在线特征计算提供一致性支持,解决了特征时序计算的难题,并通过并行计算优化和窗口倾斜优化提升性能。在某国有银行的风控场景中,OpenMLDB显著提高了预测准确率和降低了误报率。此外,文章还详细阐述了OpenMLDB如何实现多窗口并行计算和数据倾斜优化的细节。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

近日,在DataFunSummit:智能金融在线峰会上,第四范式平台架构师陈迪豪以《OpenMLDB风控数据库计算优化》为主题,重点介绍了第四范式开源机器学习数据库OpenMLDB在金融领域的应用,以及底层时序特征的处理、窗口的计算优化细节等,让用户可以理解风控数据库的技术架构,了解底层基于窗口的计算性能优化点,以及性能优化的实现细节。

一.风控场景特征设计

基于机器学习的智能风控数据库,逐渐取代了人工审核和专家规则,成为准确性更高、更可靠的风控系统,后面会介绍一下风控场景下智能风控平台的设计以及它的特征设计。

首先是风控系统的演化,大家已经了解了,从最早的人工审核,取得了一定的效果,但成本较高,效率较低。进入21世纪,行业内开始利用计算机自动化能力与专家规则相结合的方式,解决效率低、自动化较差的问题,但是它同时出现容易误杀,用户体验较差,无法用于事中拦截,准确率低的问题。近几年,各大金融机构和互联网金融企业的风控系统开始采用基于机器学习的方式来实现。

首先应用从海量的数据中训练得到机器学习模型,比如说传统的LR模型,还有更复杂的DNN都可以实现更高准确率,还可以根据不同的应用场景,实现千人千面的模型预测。机器学习的特点就是隐蔽性更强,准确性更高,迭代速度更快,也逐渐成为智能风控系统必不可少的技术支撑。

从效果来看,在某国有银行的线上非本人交易欺诈防控场景中,OpenMLDB上线以后在召回率0.5左右的情况下,预测准确率提升了316%;在事中交易欺诈检测场景中,相比使用专家规则的事中反欺诈检测,误报率在召回54%左右的时候,整体误报率下降了33%。

智能风控系统是结合过去的一些专家规则和最新的机器学习模型来实现的一个平台。蓝色部分是银行内部已有的业务系统,有黑白名单,有一些外部数据如时序数据等都可以通过数仓导到我们决策平台,它不会全部依赖模型,而是结合专家规则,由规则引擎和模型预估服务来共同协作,做出最终的决策。
在这里插入图片描述

模型部分是传统的机器学习流程,比如说离线数据部分,实现数据导入和数据预处理、特征抽取、模型训练以及后续的模型上线以及模型自学习、模型更新等等功能。

这是一套完整的智能风控系统,我们今天介绍的是OpenMLDB在这套系统里最底层的离线数据管理以及在线的特征查询服务。

风控场景下复杂的特征工程

我们看一下风控场景它的特征有哪些特点,首先是用户的交易信息以及用户的属性是非常重要的。时序特征在风控场景里面也是特别重要的,用户在不同的窗口,前一天、前七天、前一个月、前三个月,这些窗口都包含了很重要的信息特征,我们对于不同的数据,因为它的交易次数,交易的金额在不同的历史窗口里面,也是需要计算出不同的特征过来。

还有就是交易的金额最大值和最小值,交易的地点信息等,都包含一些连续行为特征。所以,我们在构建一个风控场景下的机器学习模型时,特征设计是比较复杂的,需要考虑特征时序相关的计算,最大的难点在于这些特征由科学家设计出来以后,需要在在线系统重新实现。

离线的实现传统做法是用OLAP或者MPP系统,Spark、Flink等本身就支持SQL标准的滑动窗口。但在线是很难实现的,每一个离线的特征都需要翻译到在线。如果我们的建模方案修改了或者新增一些特征,在线也需要做新增特征的开发。新增在线特征开发与离线基于MPP系统是两套计算逻辑和执行引擎,表达优化也不一样,需要大量的人工做离线在线的特征一致性校验。

OpenMLDB为特征计算提供更优的支撑

OpenMLDB可以解决这个问题,它针对AI场景做了特征优化,既实现了离线存储特征计算的优化,还实现了在线业务在毫秒级别的实时查询。

首先,OpenMLDB是针对AI场景的特征计算引擎,可以面向机器学习应用提供正确高效的数据供给,无论是离线数据还是在线数据,底层都有一致性同步的,这个与前面提到的HTAP有点类似。但是我们的在线数据是一个高性能的内存时序存取接口,可以毫秒级别实现时序数据供给。要实现在线离线特征计算一致性和存储一致性,这是由统一的执行引擎来实现,由统一的基于(LLVM JIT)实现的SQL优化器,离线和在线使用相同的执行引擎,才能把离线在线的特征算出来,而不需要人工校验翻译,同时也支持了机器学习场景的特殊批表操作,以及特殊的特征抽取函数等。

其次,OpenMLDB也是高性能的OLTP和MPP执行引擎,支持高性能在线时序数据的读写和恢复。它的读写性能非常高,而且是针对时序数据做优化,这是目前业界无论是OLTP还是TSDB这些时序数据库都不能达到毫秒级别的性能。在硬件的优化与支持上,OpenMLDB可在Memory和PMEM存储介质上使用,PMEM是英特尔提供的全新存储介质&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值