真不错!独家解密|隐私计算的金融领域应用(附联邦学习平台落地的实操内容)

近几年,隐私计算比较火热,已经成为一种新兴的科技产业,国内有很多金融机构、互联网大厂和创业公司加入到隐私计算的市场浪潮中,并且将隐私计算技术应用到金融、医疗、电商、能源等很多领域中。其中,针对银行、消金、保险等金融机构的风控场景,隐私计算也已经落地解决了诸多数据应用和数据安全的问题。对于从事金融领域的各位小伙伴,无论从事什么岗位,非常有必要了解下隐私计算的原理概念、技术架构、应用场景等,尤其是行业发展的动态情况。理由很简单,随着国家政策环境的变化,以及数据流通协作的需求,隐私计算已经成为一种必然的趋势。

1、隐私计算原理
我们先来简单了解下隐私计算的相关概念与技术原理,隐私计算是指在保护数据本身不对外泄露的前提条件下,实现数据分析计算与数据价值挖掘的一类信息技术体系,是人工智能、密码学、数据科学等多项技术的交叉融合。
隐私计算从技术实现原理来讲,主要分为密码学和可信硬件两大领域。其中,密码学技术目前以多方安全计算(MPC)为代表,可信硬件技术主要是指可信执行环境(TEE)。此外,还有根据以上两种技术路径衍生出的联邦学习(FL)等应用技术。这些隐私计算技术,为数据的流通与应用提供了“可用不可见”的数据安全解决方案,成为数据多方共享与合理利用的破题之道。
(1)多方安全计算
多方安全计算(Secure Multi-Party Computation),简称MPC,其核心思想是通过设计特殊的加密算法和通信协议,基于密码学原理实现在无可信第三方的情况下,对多个数据参与方输入的数据进行加密,并根据加密数据直接进行计算分析。
(2)可信执行环境
可信执行环境(Trusted Execution Environment),简称TEE,其核心思想是构建一个独立于操作系统而存在的可信的、隔离的机密计算空间,数据计算分析仅在此安全环境内进行,通过依赖可信硬件来保障数据交互的安全。
(3)联邦学习
联邦学习(Federated Learning),简称FL,其本质是分布式的机器学习,在保证数据隐私安全的前提下,通过多方原始数据的虚拟融合,实现多方参与机构的联合建模,以提升模型的综合效果。
对于以上三种隐私计算技术,联邦学习(FL)与多方安全计算(MPC)应用较为广泛。其中,联邦学习的目标是保障多方机构在数据共享过程的数据安全,从而有效保护个人或企业数据的隐私信息,其过程是采用数据加密算法绕过各参与机构之间的信息壁垒,不会将各参与方的原始数据进行提取合并,而是通过密码学协议在数据交互过程传递加密信息,此数据加密过程具有严格且规范的隐私保护机制,保证加密后的信息不会产生数据泄露,从而实现各参与机构在不暴露本方原始数据的条件下,使用多方共享的数据进行模型训练与模型应用等过程。根据多个参与方数据特征分布的特点,联邦学习可以具体分为横向联邦学习、纵向联邦学习和联邦迁移学习,示意样例如图1所示。
在这里插入图片描述
图1 联邦学习分类

由上图可知,横向联邦学习适用的场景特点是特征重合较多,而样本重合较少;纵向联邦学习适用的场景特点是样本重合较多,而特征重合较少;联邦迁移学习适用的场景特点是样本和特征重合都很少。根据联邦学习不同类别的分布特点,可以满足不同场景的联合建模需求。在实际业务中,联邦学习的应用场景主要是纵向联合建模形式,也就是通过多方数据样本主键的安全求交,扩大建模特征变量的范围,从而实现模型建立的过程,有效提升机器学习模型的应用性能。

2、隐私计算应用
隐私计算平台在金融领域的应用场景较多,主要包括隐匿查询、安全求交、联合统计、联合建模等,现结合应用场景进行简要说明。
2.1 隐匿查询
隐匿查询是保护被查客户的主键ID,例如个人客户的身份证号、手机号、姓名等,以及企业客户的信用代码、公司名称等。如图2所示,在金融机构从数据提供方查询数据时,金融机构保证客户ID不泄露的安全问题,数据机构保持数据控制权,从而提供合规查询的数据服务。
在这里插入图片描述
图2 隐匿查询示意图

隐匿查询在金融风控的具体应用中,包括以下典型场景:
(1)黑/白名单查询
(2)二/三/四要素核验
(3)身份地址核验
(4)多头查询

2.2 联合统计
联合统计是利用底层协议包括同态加密(HE)、秘密分享(SS)、不经意传输(OT)等密码学技术的整合,实现多方样本数据的加法、减法、乘法和以及比较运算,从而实现业务的统计分析,如图3所示。
在这里插入图片描述
图3 联合统计示意图

联合统计在金融领域具体应用中,包括以下典型场景:
(1)金融平行机构的共债统计
(2)政府地方区域金融数据统计
(3)集团下属企业间隐私保护数据统计
(4)园区绿色金融企业的双碳监测统计

2.3 联邦学习
联邦学习是通过服务器私有化部署模式,在各方数据不出域的前提下,采用加密算法实现多方样本数据的求交对齐,然后根据特征处理后的数据进行模型训练、评估、预测等过程,如图4所示。
举个例子,某商业银行和征信机构进行数据合作,通过双方数据希望联合建立一个用户贷款申请信用模型,以应用在银行的零售信贷产品业务中,以提高风控系统的准确率。银行与征信机构具有相同区域的用户样本数据,但各方掌握不同维度的用户特征数据,此外银行还拥有模型需要预测的标签数据。由于各方数据均涉及到个人数据隐私保护问题,银行与征信机构无法直接进行数据交换。如果引入联邦学习系统平台,则可以在保证双方原始数据不出本地的情况下,通过加密算法对双方的建模样本数据进行对齐求交,并共享双方特征指标进行模型训练,直至达到预期的模型性能评价指标,从而形成实际场景应用的用户申请信用模型,在保护数据安全的前提下,有效提升了银行的风控模型能力。
在这里插入图片描述
图4 联邦学习示意图

联邦学习在风控建模的具体应用中,包括以下典型场景:
(1)风险评分联合建模
(2)产品偏好联合建模
(3)智能定价联合建模
(4)精准营销联合建模

以上是从隐私计算中的多方安全计算(MPC)、联邦学习(FL)等应用角度,简要分析了各技术的原理架构与应用场景。大家可以在熟悉相关概念与场景的情况下,再去拓展了解隐私计算详细的架构体系,尤其是隐私计算常用的密码学算法协议(OT、HE、SS等)。当然,生活在金融风控圈子的我们,重点还是要熟悉隐私计算技术的应用逻辑,以及相关的实际落地场景,尤其是联邦学习,在金融领域的应用中有很多的价值,包括风控、营销等维度。

3、联邦学习平台
在隐私计算技术中,联邦学习的应用最为广泛。在具体场景应用中,联邦学习是通过平台来实现的。下面我们通过某联邦学习平台的可视化流程,来介绍下在两个数据参与方情况下的联合建模的大体流程,首先来看一下联邦学习的整体操作步骤,具体如图5所示。
在这里插入图片描述
图5 联邦学习流程

由上图可知,联邦学习的主要步骤包括数据虚拟融合、数据预处理、特征工程、模型训练、模型评估、模型发布等环节,这和本地明文建模的流程基本是一致的,最核心的区别是,联邦建模的很多交互过程都是基于机器学习与密码学的结合来实现的,目的是一方面保护数据隐私安全,另一方方面是保证模型的性能效果。下面我们结合实际业务中最常见的纵向联邦学习,来介绍联邦建模的实现过程。

(1)数据融合
联邦学习首先需要准备一份建模数据宽表,而且样本来源于数据使用方(Y样本)与数据提供方(X样本),但最终建模样本数据的生成,并不是真正形成了一份本地数据,而是通过双方(或多方)样本的共有主键ID进行安全求交,匹配形成了一份虚拟建模数据。简单来说,双方的原始数据均留在各自本地,只是通过密码学的方式将二者的样本数据关系进行关联,形成了所谓“虚拟”融合的建模数据集。在后续的数据预处理、特征工程、模型训练以及模型评估等环节,都是围绕这份虚拟数据集在指定任务命令下,分别在各自本地服务器进行数据处理。当然,其中的交互关系是通过机器学习与密码学同步实现的。
在虚拟建模数据集融合之前,各参与方需要根据自己在项目中的角色(建模方或数据方),分别在本地服务器上传样本数据集,数据源类型可以是文件或者数据库,平台功能界面如图6所示。
在这里插入图片描述
图6 数据上传

当双方将样本数据上传成功后,数据使用方可以建立联邦建模项目,将数据参与方的服务器节点添加进来,使得当前项目直接关联到各方的服务器。数据使用方可以结合建模需求,添加双方样本数据,并且选择样本求交主键ID后,来进行样本数据的虚拟融合,如图7所示。
在这里插入图片描述
图7 数据融合

当双方数据求交融合成功后,即生成了“虚拟”建模数据集,同时还会生成一份数据融合报告,显示说明融合数据的样本匹配率、特征类型、特征分布、任务耗时等详细情况,部分融合报告如图8所示。
在这里插入图片描述
图8 融合报告

(2)数据预处理
当建模样本数据集生成后,接下来是数据预处理过程,包含缺失值处理、异常值处理、特征标准化等,这和我们本地建模常采用的算法也是一致的。数据预处理的功能界面如图9所示,通过特征字段的相关信息,例如分布类型、取值类型、缺失数量、直方图等,可以选择符合特征情况的数据处理方式。其中,缺失值处理与异常值处理可以实现最大值、最小值、平均值、中位数、众数、自定义等方式的填充;特征标准化可以实现min-max标准化、z-score标准化等方法。
在这里插入图片描述
图9 数据预处理

上图仅展示了缺失值处理的样例,对于异常值处理、重复值处理、特征标准化、特征编码等算法,表现形式都是类似的。

(3)特征工程
特征工程是数据建模过程的重要内容,同样在联邦学习平台也是同样可以实现的,包括特征分箱、特征相关性、特征共线性、特征降维、特征衍生、特征筛选等。我们以常见的特征分箱为例,在界面可以配置特征的分箱方法(等距分箱、等频分箱、卡方分箱等)以及分箱数量,如图10所示。
在这里插入图片描述
图10 特征分箱参数

对建模样本数据进行批量特征分箱后,会输出各参与方特征字段的信息值IV,具体如图11所示,可以通过IV值大小进行自定义范围选择,目的是为模型训练筛选相对有价值的变量。同理,特征共线性分析,可以输出方差膨胀因子VIF,同样可以作为特征筛选的指标参数。
在这里插入图片描述
图11 特征变量IV值

特征分箱后的结果不仅可以输出各变量的IV值,而且可以生成各字段分箱的分布直方图,包括各分箱区间的WOE、IV、pct、odds等,具体如图12所示。如果对某特征的分箱结果不够满意,可以结合数据分布与建模经验进一步重新分箱,以获取更优的分箱结果。
在这里插入图片描述
图12 特征变量IV值

(4)模型训练
针对建模样本数据,经过数据预处理与特征工程后,接下来便可以进行模型训练环节。模型可以实现回归、分类和聚类算法,包括线性回归、逻辑回归、XGBoost、LightGBM等。根据界面展示的参数信息,自定义配置数据拆分(训练集与测试集的拆分比例)以及模型拟合等重要参数,即可提交模型训练任务。以LightGBM分类算法为例,常见参数例如树的棵树、树的深度、节点样本数量、学习率、分类阈值等,具体如图13所示。
在这里插入图片描述
图13 模型训练参数

(5)模型评估
当模型训练任务成功完成后,平台会输出包含模型相关指标结果的模型报告,这里需要注意的是,对于模型结果,并不是都可以展示,例如逻辑回归模型各入模变量的系数,这类数据属于非常关键的隐私数据信息,如果在数据使用方或数据提供方生成或展示,一方都可以很容易通过已知数据反推出对方的原始数据,这显然是不符合隐私计算应用初衷即保护数据安全的。隐私安全保护的核心思想同样在建模过程的其他环节,例如数据融合、数据预处理、特征分箱、模型预测等步骤都是遵循的。因此,对于模型评估的报告结果,主要展示模型相关性能指标与统计分布数据,对应界面样例如图13、图14所示。
在这里插入图片描述
图13 模型评估报告1

在这里插入图片描述
图14 模型评估报告2

模型评估报告可以输出训练数据集、验证数据集的模型结果,如果进行样本外测试,同样可以反映模型在新测试数据集上的表现。除了以上关于模型准确度与区分度等指标,还可以输出模型在不同样本的稳定性指标PSI。

(6)模型发布
经过模型训练、模型测试、模型评估等环节,假如模型的综合性能表现满足业务需求,便可以进行模型发布,生成可配置的模型api接口。数据使用方(建模方)通过调用,便可以实现线上模型在实际业务的决策应用。模型发布后生成的模型变量详情结果如图15所示,对应模型api接口地址信息如图16所示。
在这里插入图片描述
图15 模型变量详情

在这里插入图片描述
图16模型服务信息

通过调用上图展示的模型接口api地址,可以实现模型的离线或在线预测,示例如图17所示,只需要给定样本uid,便会输出模型预测类别值predictResult以及预测概率值predictResultProb。
在这里插入图片描述
图17 模型调用实现

以上内容便是隐私计算领域主要技术的相关原理与应用场景,包括多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)等,具体应用方式有安全求交、联合统计、隐匿查询、联邦建模等。围绕各类隐私计算技术,给大家介绍了在金融领域含风控、营销等典型应用场景。最后,我们以纵向联邦学习为例,详细介绍了联邦学习平台的可视化实现过程。
为了便于大家进一步熟悉隐私计算行业的发展动态和当前格局,以及在金融、医疗等领域的应用场景,我们准备了一份某机构发布的《隐私计算行业发展研究报告》,供大家参考学习,详情请大家移至知识星球查看相关内容。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


~原创文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值