导语:近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。但是,目前这一技术在很多企业落地遇到了困难,InfoQ将通过选题的方式逐一介绍各大公司如何在金融领域落地实践该技术。
在人工智能领域,技术实践,尤其是大规模落地是所有开发者高度关注的话题。然而,在实际的落地过程中,总是面临着各种问题。仅仅是最基础的数据,就已成为大多数企业技术无法取得突破的瓶颈:数据质量差——如许多数据标签难以收集,甚至没有标签;数据分散的——每家应用的数据都不一样,很难跨组织间数据合作等。随着国内关于数据的法律条例越来越严格,数据问题变得更加棘手,而联邦学习的出现则让开发者发现了解决问题的可行性。
过去几年,国内不少公司投入到联邦学习的研发中,并且已经进入落地实践阶段。本文,InfoQ采访了微众银行人工智能部副总经理陈天健,对联邦学习各类方法在微众银行的实践进行了深入了解。
联邦学习在金融领域的应用
目前,联邦学习已经在一些关键的金融领域取得了进展,比如联合反洗钱建模、联合信贷风控建模、联合权益定价建模、联合客户价值建模等。相较于其他领域,金融领域对数据的管控更为严格,对数据隐私更加重视,因此也是最需要通过技术手段解决数据孤岛问题的领域。
陈天健表示,信贷风险管理、核保风险评估等都是联邦学习比较适合的金融应用。相对于其他领域,金融应用更着力于对风险的量化,毕竟风险价格往往是金融产品价格的主要组成部分。基于联邦学习的风险量化模型,能通过扩展数据维度,显著改善风险量化能力,从而降低整体金融产品价格,进一步提升金融服务对社会大众而言的可得性。
联邦学习三大分类体系实践
在联邦学习的分类体系中,包括:
-
横向联邦学习,两个数据集的用户特征 ( X1, X2, … ) 重叠部分较大,而用户 ( U1, U2, … ) 重叠部分较小;
-
纵向联邦学习,两个数据集的用户 ( U1, U2, … ) 重叠部分较大,而用户特征 ( X1, X2, … ) 重叠部分较小;
-
联邦迁移学习,通过联邦学习和迁移学习,解决两个数据集的用户 ( U1, U2, … ) 与用户特征重叠 ( X1, X2, … ) 部分都比较小的问题。
不同的分类体系,适合解决金融领域不同场景下的问题。
横向联邦学习
首先,我们来了解一下横向联邦学习的应用实践。陈天健表示,横向联邦学习的特点是数据特征相同,样本ID不同,金融领域的常见应用是银行处理反洗钱。
反洗钱在银行的日常运作中起着重要作用。但确定交易记录是否为洗钱活动很无聊且容易出错。传统上,银行使用基于规则的模型来过滤那些明显的非洗钱记录并手动查看其