知识图谱下的关联交易

1、背景

针对商业企业日常行为活动日益复杂且欺诈行为频发的问题,将领域的行业知识与金融知识图谱技术结合,以更精准地识别与防范商业欺诈风险。采用图分析、图挖掘等技术,提取深层关联风险特征,并与行业经验知识相结合,构建了单点规则及组合规则,形成了丰富、可灵活配置的反欺诈策略体系。将该智能化反欺诈方法应用于银行企业客户风险排查,与传统规则策略相比,识别精准度大幅提升,且对于筛选出的高度可疑账户,识别精准度达到85%左右,极大提升了欺诈案件核查的效率。

  1. 知识图谱简介

金融风控技术演进路线是规则-模型-图谱,对应的技术分别是数据分析、机器学习、知识图谱,所需要和处理的数据维度可以抽象成从点到线再到面。在风控人员对模型尚未能完全理解的时候,又期望知识图谱技术能够让风控提升至一个崭新的水平。知识图谱在风控领域的最典型应用场景是利用图谱识别欺诈团伙。图谱识别欺诈团伙优势万千,比如数据间的天然关联、图谱强大的路径分析功能、各式社区发现算法、风险传播算法等等。

机器学习模型已经越来成为金融风控必要工具,图谱也逐渐在各个业务场景中崭露头角。图技术的快速演进急切地渴望从学术界的成功转移到工业界的应用。图谱分析、团伙挖掘这些还没玩明白的时候,图嵌入、图神经网络正款款走来。尽管目前还未遇到过必须用图神经网络技术的实际需求,但是图谱方案规划已然走在前列,相信不久的将来此类需求定铺天盖地而来。

3.图谱的全应用流程

 

4 知识图谱构建与分析

知识图谱具有节点和边的概念,节点表示信息实体或者实体的属性值,边表示两个被连接实体的关系或者一个实体的某个属性。金融知识图谱主要针对金融行业的业务场景,通过大规模语义网络,将金融业务领域中的结构化、半结构化、非结构化等不同类型数据进行整合,将事物或者概念作为实体,基于实体之间的语义关系相互连接,构建出网状的知识链接,形成结构化的语义知识库,以更清晰的形式描述金融业务中复杂的关联逻辑。金融知识图谱的内容和结构根据具体金融业务的不同而不同,对于会计案防领域,防范重点在于资金的违规流动,故该领域金融知识图谱的重点在于对账户之间资金交易关系的刻画,与传统知识图谱相比,账户实体之间的边增加了表示资金流向的箭头,边的粗细也会根据交易量进行区分。

知识图谱的构建首先是语义框架的设计,即确定会计案防业务领域中的实体,以及实体之间的语义关系结构;其次是知识内容的构建,即根据语义框架中定义好的实体及关系类型,从多源异构数据中提取出实体,将实体、关系、属性以三元组的形式存储在图数据库中,形成完整的关联图谱。

采用各类知识图谱分析技术能够发掘出图结构中隐含的业务深层联系,实现智慧搜索与智能交互,进而增强金融机构的业务智能化水平。本方案主要采用图可视化分析、知识推理、图计算等图技术,提炼金融知识图谱的浅层关联特征、深层关联特征等多层次结构信息,赋能复杂业务经验的智能化应用,提高欺诈风险识别的覆盖率、准确率。主要的图分析及特征提取内容如图3所示。

 

图3   图分析和特征提取

4.1 图可视化分析

图可视化分析主要是将图结构的数据存储在Neo4j、JanusGraph等图数据库中,并结合Elasticsearch搜索分析引擎,实现高灵活性、高准确性、低时延及大规模并行化的检索查询,形成对图结构数据的可视化关联展示,以提取实体之间的关系类型、实体属性等基础的网络特征。

4.2 图关系挖掘

通过图计算、知识推理等分析挖掘技术,提取出图数据结构中的深层关联特征,揭示隐含的欺诈风险。本方案主要采用的图关系挖掘方法见表2。

 

(1)资金交易闭环分析

找出资金从某一账户转出,与其他账户交易后又转入原始账户的交易闭环,有利于排查虚假交易、洗钱等风险行为。账户交易图谱是有向图,可采用Tarjan算法识别交易网络中的强连通图,即图中任意两个顶点可以互相通达,从而挖掘出闭环交易。Tarjan算法基于深度优先搜索进行节点访问,定义dfn[u]为深度优先搜索时节点u的时间戳(即次序编号),low[u]为u或u的子树能够追溯到的最早的栈中节点的序号。对于当前节点u和关联节点v:若(u,v)为搜索边,low[u]=min{low[u],low[v]};若(u,v)为回边,low[u]=min{low[u],dfn[v]}。最终选取low[u]=dfn[u]时,该节点往上的所有节点构成的强联通分量。

(2)账户关联强度分析

将两个账户之间的交易路径长度、交易时间、交易金额、交易次数等多个维度综合起来进行评估,挖掘出有直接或间接交易关系的账户之间的紧密程度。对于一条交易路径,如图4所示,A1、A2两个账户之间并无直接交易,但通过账户B2、B3建立起间接的交易关系。

 

图4   交易路径示例

用λ表示两个直接交易账户之间的交易权重,λi为资金从账户A1到A2的整个交易链路中第i段交易的权重:

           (3)账户分层穿透匹配

 

分层穿透是指通过层层追溯,找到最终的间接利益关联方。此处主要是对资金在转出初始账户后的交易路径进行层层追踪,找到资金的最终流向,能有效挖掘出多层复杂场景下资金通过中间账户转移到非法账户的风险。推理示例如下:

 

               

其中,a、b表示两个节点,edge表示存在边关系,path表示存在关联路径,箭头表示关系及路径的方向。

(4)资金转移模式匹配

资金转移模式匹配主要用来判断“分散转入、集中转出”以及“分散转出、集中转入”这两种可疑的账户交易模式,前者通常隐含非法集资的风险,后者则具有典型的洗钱特征。为了更加精准地评估某一资金转移与风险交易模式的匹配程度,将账户交易的网络图谱转换为账户余额随时间变化的交易波形图,用波形的相似程度表示账户交易模式的相似程度,从而定量评估资金转移模式是否具有较高的风险特征。

在波形相似度的衡量上,相关系数一般用来衡量波形总体相似程度,容易忽视局部特征的差异。本文在计算波形相关系数的基础上,选取波形的主波峰值、主波起始点至顶峰的时间这两个主要的波形局部特征,将两者结合起来,得到最终相似度,其计算式为:

              

 

其中,W为基础波形,P为对比波形,Wt、Pt分别表示在t时刻两个账户的金额;分别表示两个账户在该时间段内的平均金额;H表示主波峰值;T表示主波起始点至顶峰的时间;β表示权重。

4.3知识图谱关联特征提取

本文图网络结构标识的实体主要包含两类,一类是账户实体,包含企业、个人开立的可发生资金交易行为的银行账户;另一类是非账户实体,如经营机构、操作设备等。对应的实体之间的关系也主要分为两类,一是账户与账户之间,主要是交易关系,由是否有资金往来确定,若发生过转账、支付等交易行为,则有交易关系;二是账户与非账户之间,具体关系需要根据非账户实体确定,如账户与经营机构之间是开户关系,账户与操作设备之间是使用关系。在本文账户关联图谱中,实体用节点表示,关系用边表示,其中交易关系具有箭头和粗细区分,边的箭头由转出账户指向转入账户,边的粗细则主要由交易金额决定;而对于账户与非账户之间,未涉及资金流向,其关系大多是固定的,也是可逆的,如某一账户和开户证件号,可以从账户关联到证件号,也可以从证件号关联到账户,可逆关系无须箭头和粗细的区分。对于与其他实体无任何关联的孤立实体节点,其表示该账户无资金交易行为,也无任何基本信息关联,将该孤立节点删除。最终构建形成的金融知识图谱由诸多非连通的子图组成,各个子图之间未构成关联,子图内部的账户之间以多种方式进行连接。知识图谱中涉及的主要实体及关系类型见表4。

 

图5为账户交易知识图谱的子图示例。以子图1为例,A1~A5代表资金账户实体,A1账户的资金主要流向A2、A3、A4 3个账户,其中A1→A2的资金交易量最大,连线边也相应较粗,A1→A3的资金交易量最小,连线边则较细;IP地址、证件等为非账户实体。从图5可知,账户A2、A3、A5关联同一个证件号码,非账户实体与账户实体之间无交易行为,故连接边为无箭头的实线。

 

图5   账户交易知识图谱的子图示例

4.3.1 浅层关联特征

浅层关联特征主要指可从图结构中直接查询得到,无须进一步加工计算的特征,也可以通过图谱可视化直接读取,如图5中的子图1,A4、A5账户对应同一个对账地址,当多个非同名账户都对应同一个对账地址时,则存在虚假开户的风险。表5给出了浅层关联特征示例。

 

4.3.2 深层关联特征

与浅层关联特征的获取有所不同,深层关联特征无法从图结构中直接获取,需要基于图计算等方式深入挖掘提取得到。

(1)资金交易闭环分析

如图6所示,基于前述Tarjan算法挖掘强联通分量,可以发现资金从账户A1转出,经过账户A2、A3、A5路径,以及账户A2、A3、A4、A5路径,回流至账户A1,形成两条资金闭环,提示存在洗钱或虚假交易等疑似欺诈的行为。

 

图6   资金交易闭环示例

(2)账户关联强度分析

当两个账户之间存在多条交易路径时,对不同交易路径下的关联强度进行计算,选取最大值作为最终的关联强度值。如图7所示,A和B代表账户实体(为了进一步区分,以A表示起始和终点账户,B表示中间账户);V表示非账户实体,与账户间无资金交易关系,也不影响账户关联强度的计算。A1与A2之间存在两条关联路径,分别是A1→B2→B3→A2,以及A1→B1→A2。计算两条交易路径下A1、A2的账户关联强度,得到在较长路径下,两者的关联强度反而更大,有助于对可疑账户的高关联账户及核心交易路径进行排查。

 

图7   账户关联强度分析

(3)账户分层穿透匹配

如图8所示,对账户资金流向进行层层穿透,可以发现账户A与账户D并无直接的资金交易,但经过知识图谱对交易层级的拓展,显示账户A中的资金经过B1到Bn,以及C1到Cn这两条路径,最终流向了账户D这类投资股票、房产的高风险账户,属于违规使用信贷资金的行为。

 

图8   账户分层穿透

(4)资金转移模式匹配

如图9所示,通过限定资金转入转出特点,得到两种交易模式图,一种模式是分散转入、集中转出,账户X1、X2、X3、X4中的资金先后流向账户X中,呈现陆续分散转入的现象,然后账户X再将资金集中转出到账户Y中,这有非法集资的风险;另一种模式是集中转入、分散转出,与前一种模式正好相反,资金先由账户X集中转入账户Y中,然后再由账户Y陆续转出到账户Y1、Y2、Y3、Y4等账户中,这有较严重的洗钱嫌疑。

 

图9   资金转移模式

进一步分析不同账户的交易波形与欺诈样本交易波形的相似程度。图10表示“分散转入、集中转出”模式下某一欺诈账户的关联交易模式,图11为对应的风险交易波形图;波形一(如图12所示)和波形二(如图13所示)分别代表两类账户的交易波形。根据前述计算方式,得到波形一、波形二与风险波形的相似度分别为0.423和0.825,表明波形二对应的账户交易模式存在与风险波形类似的欺诈特点,需要重点排查;波形一与风险波形的相似度较小,表明波形一对应的账户交易模式属于前述欺诈行为的可能性较小。

 

 

 

基于以上分析,本文进一步提取出一些具有较高欺诈风险的深层关联特征,见表6,这些深层关联特征和浅层关联特征一起形成了对账户基础特征的有力补充。

 

5.意义

未来智能化反欺诈策略中将融入更多的机器学习、深度学习等AI算法,将算法模型的分析预测结果进一步纳入规则集中,使反欺诈策略体系更加完善与精细;也将依托大数据相关技术搭建智能化会计案防平台,以平台化运作的方式实现规则策略的自动化加工计算、组合配置及提示预警,最终在真实会计案防场景中高效运行,助力银行风险管理的数字化、智能化转型升级。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值