《Causal Inference for Banking, Finance, and Insurance – A Survey》阅读笔记

原文连接:[2307.16427] Causal Inference for Banking Finance and Insurance A Survey (arxiv.org)

大致简介

0.摘要:

因果推断在解释统计模型和人工智能模型所做决策中起着重要作用。最近,这一领域开始引起研究人员和实践者的注意。本文对1992年至2023年间发表的37篇论文进行了全面调查,涉及因果推断在银行、金融和保险领域的应用。这些论文按以下领域进行分类:(i)银行,(ii)金融及其子领域,如企业金融、治理金融(包括金融风险和金融政策)、金融经济学和行为金融,以及(iii)保险。此外,本文涵盖了因果推断的主要组成部分,即统计方法,如贝叶斯因果网络、Granger因果关系以及相关术语,如反事实。综述还提出了一些未来研究的重要方向。总之,我们观察到因果推断在银行业和保险业的应用仍处于初期阶段,因此还有更多的研究可能将其转化为可行的方法。


1.介绍

在行为科学等领域,研究主要由历史数据获得的因果推断驱动,而不是统计推断。在任何公司或组织中,经常被问及的一个问题是:“单凭数据是否能证明公司的声誉及其在招聘方面存在歧视?”。要回答这类问题,需要对数据生成过程有一定的了解,而且不管样本大小如何,仅凭给定的数据是无法完成这一任务的(Pearl,2010)。

因果推断是指确定变量或事件之间因果关系的过程。它涉及通过分析数据建立因果关系,从而得出一个变量对另一个变量的影响的结论。因果推断是统计学、流行病学和其他学科中的一个基本概念,旨在理解变量之间的因果关系。它是基于观察或实验数据进行因果关系推断的过程。因果推断的起源可以追溯到哲学家和统计学家的作品,他们认识到在科学研究中建立因果关系而不仅仅是相关性的必要性。

在各个领域,因果推断都带来了许多好处。在流行病学中,它使研究人员能够通过确定暴露(例如药物或环境因素)与结果(例如疾病或健康状况)之间的因果关系来确定干预措施和治疗的有效性(Pearl,2009)。

此外,在经济学领域,因果推断使经济学家能够评估特定因素对经济结果的影响,例如最低工资法对就业水平的影响或税收政策对经济增长的影响(Angrist&Pischke,2009)。它通过为不同行动的潜在后果提供基于证据的见解,帮助研究人员和决策者进行决策过程。

解决系统性因果问题需要对标准统计数学语言进行一定的扩展。因果层级定理(CHT)指出,层级结构的三个层次通常在测度论意义上是分离的,这意味着来自一个层次的数据并不能完全确定更高层次的信息。

被广泛接受的科学方法包括通过观察收集信息,并根据具体用例对各种原因进行实验,从而利用这些信息来构建关于尚未发现的因果过程的理论(Bareinboim等,2022)。

随着时间的推移,关于因果性的概念已经进行了大量的讨论,然而它仍然是一种重要的知识形式,因为它能够提供如何实现期望结果而避免不利结果的指导。因果性涉及一种连接,其中一个因素的改变会导致另一个因素的相应修改。这种关系取决于三个因素:相关性、时间顺序以及“第三变量”的控制——对于显示的因果关系的替代解释。考虑到虚假关系的可能性是至关重要的,其中变量之间的相关性似乎表明有因果效应,但实际上是由于隐藏的共同原因导致的。本质上,因果性涉及变量之间的连接,其中一个因素的变化必然会触发另一个因素的变化(Oppewal,2010)。

因果推断方法在评估金融监管有效性方面至关重要。研究人员分析监管变化对各种结果的影响,例如银行稳定性、风险承担行为或市场流动性。通过采用回归断点设计或合成对照方法等技术,他们可以确定特定监管措施的因果效应。例如,Demirguc-Kunt和Huizinga(2009)曾暗示可以进行一项研究,以检验银行活动与风险承担行为之间的因果关系,为决策者和监管机构提供有价值的见解。

传统的机器学习模型侧重于关联而不是因果关系。可解释的人工智能涉及实现黑盒统计和机器学习方法(特别是深度学习)的透明度和可追溯性。我们认为有必要超越可解释的人工智能。随着因果推断的流行,可解释的机器学习算法的数量正在增加。与传统方法相反,因果方法用于分析模型设计的选择和行为,或确定其因果关系(Xu等,2020)。传统的可解释模型无法提供对机器学习模型的关键见解。例如,传统的可解释性框架无法回答因果问题,例如“深度神经网络的第m层的第n个滤波器对模型预测的影响是什么?”这些问题对于理解神经网络模型是重要且必要的(Moraffah等,2020)。

Kim & Bastani (2019)提出了一个框架,将任何算法转化为可解释的个体治疗效果估计框架,弥合了因果和可解释模型之间的差距。描述、预测和反事实预测这三个任务类别可以用来对数据科学的科学贡献进行分类。在描述中,数据被用来定量地描述世界某些方面的情况。预测是使用数据(输出)将某些世界特征(输入)映射到其他世界特征的过程。用于预测的分析技术范围从简单的计算(如相关系数或风险差异)到复杂的模式识别技术和可作为分类器的监督学习算法。在反事实预测中,使用数据预测世界的特定方面,就好像世界是不同的一样。对于所有三个任务,统计推断通常是必要的。然而,这一类别是有效完成每个数据科学活动的起点,即数据需求、假设和分析。

1.1调查主题

本文全面回顾了1993年至2023年期间关于因果推断在银行、金融和保险问题中的应用所报道的作品。我们收集了37篇涉及此领域的论文。图1描述了用于审查的因果推断文章的选择过程。所有这些论文都是从出版源收集而来的,其中包括如表3所述的期刊列表、如表4所指定的会议列表,其余文章详情见表5。一旦确定了出版源,接下来通过使用以下关键词对文章进行进一步的筛选,即(i) 因果推断、(ii) 反事实、(iii) 贝叶斯因果网络、(iv) Granger因果关系,以及(v) 有时在因果推断论文中呈现的其他方法,例如回归断点、差异法、结构方程模型(SEM),以排除文章。此外,利用出版源中的筛选选项来选择期刊、会议论文和书籍章节。最后一步是筛选出与领域相关的论文,包括基于推荐论文列表的摘要和关键词来自重叠领域的论文,如金融经济学、行为金融、公司治理和资产、投资。大多数情况下,推荐列表中的论文来自其他领域,如计量经济学,其中涉及家庭收入、国内生产总值(GDP)、军事税收的影响、商业和营销领域的内容均被排除在调查之外。

为了呈现受调查论文摘要中的主要关键词的词云,我们对摘要进行了主题建模,使用了Latent-Dirichlet分析(LDA)(Blei等,2003)。然后,我们在表1和图2中呈现了各个主题的主题和该主题中出现频率最高的前10个词。在各个主题中,最常重复出现的词是因果、推断和建模。这个词云是使用免费提供的在线工具生成的。

1.2因果推断领域现存研究

当实验不在受控环境中进行时,因果关系研究变得过于复杂。这在经验性的档案财务会计中尤为明显。他( Gassen, (2014) )提出了一个五阶段方法论,重点是开发准实验设置,以应对处理档案财务会计中的挑战。

Atansov & Black(2016)对金融和会计研究领域中基于冲击的因果推断方法进行了调查。作者在调查论文中报告了74种不同的方法。这项调查主要关注了研究治理变化对公司方法的影响。The shock is defined as an external discrete event which impacts the firms either as a treatment or control.为了处理这些问题,提出了各种基于冲击的设计,如差异和差异(DiD)、事件研究(ES)、工具变量(IV)等,以处理选择偏误。

Gow等人(2016)进行了一项研究,展示了因果推断在会计研究中的应用,并根据观察数据得出结论。作者调查了2014年发表在《会计研究杂志》、《会计评论》和《经济学与会计杂志》的与领域数据和档案数据相关的105篇论文。作者讨论了在会计研究中应用准实验设置的局限性。此外,他们讨论了在会计研究中应用结构模型的重要性以及其应用的局限性。

Delis等人(2020)提出了一种管理实践模型,将其视为标准银行生产函数中的未观察到的(潜在的)输入。作者利用1984年至2016年所有美国银行的数据和贝叶斯技术,在银行季度级别推断了管理水平。贝叶斯方法估计管理实践,允许他们将关于管理质量的先验信息纳入估计中。结果表明,管理实践与银行的盈利能力和违约风险高度相关。这表明管理质量是银行绩效的重要决定因素。

福山等人(2023)提出了一种具有顺序结构的动态网络数据包络分析(DNDEA)行为模型,用于衡量中国商业银行的效率。该模型将生产要素的双重角色特征纳入考虑,这意味着一个要素可以是输入也可以是输出。该模型还通过因果分析进行了验证。2010年,银行的效率比2018年更高。作者得出结论认为,具有顺序结构的DNDEA行为模型是衡量中国商业银行效率的有用工具。该模型可用于识别低效银行并跟踪其绩效。此外,该模型还可帮助银行提高效率。

此研究于现有的调查论文的区别:

  • 现有的调查论文主要关注因果推断对金融的影响,特别是会计领域。然而,当前的调查论文包括因果推断在所有与金融相关的领域的应用,如会计、公司金融、公司治理、金融服务中的可解释性,如信贷借贷、信用评级以及流失建模,以及重要的银行业务。因此,我们的调查更全面,涵盖了所有金融服务。

  • 此外,我们提出了一个修改过的CRISP-DM,将因果推断和XAI纳入其中。此举的必要性也进行了详细讨论。 以下是本调查涉及的研究问题:

  • 讨论在当前金融服务行业中雇用因果推断和可解释性的必要性,以使其更加以客户为中心和负责任。

  • 研究因果推断和可解释性从业务角度对理解部署模型的影响。

  • 通过采用因果推断方法和执行“假设”分析来开发透明和负责任的AI系统。 本文的结构如下:第2节概述因果推断。本节从关联到因果分析奠定了因果推断的基础(参见第2.2节),通过有向无环图来表示因果分析(参见第2.3节),并后续提供了反事实的解释(参见第2.4节)和因果效应估计(参见第2.5节)。第3节描述了用于确定因果推断的统计方法,如贝叶斯网络和格兰杰因果关系,后者是一种流行的时间序列因果方法。第4节讨论了CRISP-ML中进行的现有工作以及我们对CRISP-DM的扩展。第5节提供了在BFSI领域进行的文献调查。第6节提供了一份关于因果推断的软件和工具的调查,这对于研究这一利基领域的研究人员将是有益的。第7节提供了一些管理者和研究人员使用本调查作为参考的一些启示。第8节导致本调查的结论,第9节讨论了一些未来研究方向,希望从事在BFSI中雇用因果推断的研究人员。


2.因果推断概述

2.1 Correlation Does Not Imply Causation 相关性并不表示因果

Reichenbach(1956)提出了共同原因原则,其中提到了三种可能性。根据这一原则,如果两个随机变量X和Z在统计上依赖(参见图3),则事件之间的概率相关性与因果结构相关联,那么(a)X导致Z,(b)Z导致X,以及(c)存在第三个变量Y导致X和Y。然后称X和Z在Y的条件下独立。

计算机科学家Pearl(Pearl,2010)开发了因果关系阶梯,这是一个关于看、做和想象的不同角色的框架,它推动了对因果关系的理解取得了进步。这被称为Pearl的因果层级(PCH),它具有三级因果模型,即关联、干预和反事实(或假设)。每个级别处理需要基本理解较低级别才能回答较高级别问题的不同类型问题(Bareinboim等,2022)。实际上,我们希望在回答回顾性查询之前先回答有关干预和关联类型的问题。PCH Level 1关注观察和信息。对于行动的影响,Level 2编码了如果干预发生会发生什么的信息。最后,Layer 3回答了假设性问题,即在发生其他事件时,如果进行了某种干预,会发生什么。

2.2从关联到因果分析

任何可以用观察变量的联合分布来描述的关系都是关联的概念,而任何无法仅从分布描述的关系都是因果的概念。相关性、回归、依赖性、条件独立性、概率、崩溃、倾向得分、风险比、几率比、边际化、格兰杰因果关系、条件化、“控制变量”,等等都是关联概念的例子。因果推断的基本概念包括随机化、影响、效应、混淆、“保持恒定”,干扰、误差项、结构系数、虚假相关、忠实性/稳定性、工具变量、干预、解释和归因(Pearl,2010)。

(对应原文单词:Correlation, regression, dependency, conditional independence, probability, collapse, propensity score, risk ratio, odds ratio, marginalization, Granger causality, conditionalization, “controlling for,” and so on are examples of associational notions. Causation fundamentals include randomization, impact, effect, confounding, “holding constant,” disturbance, error terms, structural coefficients, spurious correlation, faithfulness/stability, instrumental variables, intervention, explanation, and attribution (Pearl, 2010). )

因果分析必须采用新的符号表示来表达因果交互作用,因为因果关系无法表示为联合条件概率。因果分析进一步尝试推断不仅是在稳定环境下事件发生的可能性,还包括在不断变化的条件下事件的动态,比如由医疗治疗或外部干预引起的条件变化(Pearl,2011)。

2.3有向无环图

三个变量 A、B、C 之间的统计依赖关系可以通过有向无环图(DAG)来进行可视化。DAG,记为 G,是由一组顶点 X = {X1,X2...,Xn} 和一组边 E 组成的元组,表示为 G = (X,E),其中不存在环。如果两个节点之间存在有向边,例如 A→B,表示 A 和 B 之间存在直接的条件关系,或者在因果假设下,意味着 A 是 B 的直接原因。

有三种可能的 DAG 表示 X 和 Z 在给定 Y 的情况下在边际上是相关的,但在条件上是独立的,如图3所示。简而言之,可以说 X 和 Z 是依赖节点,并且依赖于节点 Y,这个节点阻断了 X 和 Z 之间的路径。Y 被称为碰撞节点。在碰撞节点上进行条件计算,然后计算 X 和 Z 之间的关联将导致不同的估计,引入的偏差称为碰撞器偏差。

这里的三种结构之前看到过。有一个小孩哥写的科普写的很好,但是我好像找不到了。b站的教学视频讲解的也很清晰。

2.4反事实解释

潜在结果框架(Neyman,1923;Rubin,1974)通过对事件和变量进行下标表示来表达。例如,𝑌𝑥(𝑢),𝑍𝑥𝑦 或 Y (0), Y (1) 或 Z (x, y) 是一些用于表示潜在结果的符号。表达式 𝑌𝑥(𝑢) 表示如果 u 是随机选择的,则 Yx 成为一个随机变量,表示为概率 P (Yx =y)。Pearl (1995) 使用了另一种表达式来表示 𝑌𝑥(𝑢),即形式为 P (Y = y | set (X = x)) 或 P (Y = y | do (X = x)),它表示当 X=x 被提供作为治疗时,事件 (Y=y) 发生的概率。

设 X 和 Y 是两个变量,X 被称为治疗,Y 被称为“反应”或“结果”,而 Mx 表示带有 X=x 的现实的修改版本 M。考虑 X 作为二元随机变量,X=1 表示给予了治疗,X=0 表示没有提供任何治疗。如果 Y1 表示 X=1 时的结果,而 Y0 表示 X=0 时的结果。

称X为治疗,Y为响应response。

Y = XY1+(1-X)Y0

若x=1时观测到Y1,但是事实上应该是Y0被观测到。这里Y1就是引起反事实的为观测变量。

在反事实的语境下,(Y0,YA)称为潜在结果。

上面的式子允许回答很大一部分假设问题:如果X曾被设定为x,y应该取值如何?

Counterfactuals 被称作过去时间的潜在未来。

2.4.1作为优化问题的反事实的生成

首次提出了基于优化的方法来生成反事实解释(CEs)的是Wachter等人(2017)。其目标是确定至少一个最接近原始事实实例 x 的 CE 𝑥̃,以便 h(𝑥̃) 等于不同的目标𝑦̃,对于给定的经过训练的分类器 h(.)。数学优化模型产生了这样一个 CE,如方程式5所示。

根据 Maragno (2022),为了生成反事实解释的需要实现的七个必要不充分准则。

2.5因果效应估计

后门路径指的是不直接指向x的路径,它可能引起混淆。在有向无环图中,说S满足后门准则需要满足两个条件。1.S中的任何结点都不是x的后代。2.s阻断了所有xj和xi的路径,包括指向x的箭头。

数学上, 满足后门准则的S表示为:

此图展示了后门准则的路径。

变量集M若满足前门准则,必须堵死X到Y的路径,并有没有不被堵上的X到M的后门路径(X到M的后门路径都被堵上。X堵上所有M到Y 的后门路径。

图5表示前门准则,其中U是X和Y的未观察到的共同原因。对于前门准则,应用反门准则两次。在X和Y共享一个共同原因U(X ← U → Y)的因果关系中,存在一个反门路径引入了混杂,使得难以分离X对Y的直接影响。变量M对变量Y的影响受到反门路径M ← X ← U → Y的影响。然而,这条路径被变量X阻断。因此,可以利用反门调整来确定P(Y | do (M = m)),并且我们可以直接找到P(M | do (X = x)) = P(M | X = x)。通过结合这些发现,我们得到了P(Y | do (X = x))。

工具变量(IV)用于确定X对Y的因果效应。在考虑控制变量S时,它满足与X和Y的独立性条件。这个概念源自计量经济学,最初用于识别同时方程模型中的参数。通过调整控制变量,我们可以使用方程式8来估计概率P(Y | do (I = i))和P(X | do (I = i))。工具变量方法对于跟踪I对Y通过X的因果影响是有用的。 (Pearl, 2009)。

2.5.1估计平均因果效应

上式给出了在对X进行干预时,Y的预期取值的计算方法。

给出了一些治疗效应的术语:

  1. Individual Treatment Effect (ITE):

  2. Average Treatment Effect (ATE):

  3. Conditional Average Treatment Effect (CATE):

  4. Local Average Treatment Effect (LATE):

详情见论文P14.


3.因果推断的统计基础

在本节中,我们将探讨贝叶斯因果网络(BCNs)和Granger因果关系。BCNs可以解决各种因果推断问题,例如:改变一个变量对另一个变量的影响是什么?一个变量对另一个变量的直接和间接影响是什么?Granger因果关系可用于识别两个时间序列之间的潜在因果关系,但不能用于确定因果关系的方向或识别间接影响。

3.1Bayesian Causal Network

为了回答类似于“这种干预可能会导致什么后果?”或“哪些组成部分与这种效应相关?”的问题,贝叶斯网络将概率理论与图论、因果关系和其他概念相结合。

BN是一个由有向无环图(DAG)G和参数集Θ组成的元组,用于表示变量之间关系的强度和形状(Kitson等,2021年)。BN是一种特殊的DAG,如果我们假设这种因果关系,它可以帮助我们思考干预。在图中,两个节点之间的有向边表示节点B是节点A的子节点,反之亦然。BN表示了所有变量的联合概率分布P(X)。它包含了一系列条件依赖关系以及间接的条件独立性。以下是关于BN中使用的DAG所做的两个假设:

(i) 马尔可夫条件:在给定其父节点的情况下,图G中的每个变量X都与其非后代节点条件独立。由于这个条件,联合概率分布P(X)可以根据公式6进行分解(其中Pa(Xi)是Xi的父节点)。

(ii) 最小性条件:由于P(X)不包含条件独立性;这些边不能从DAG中移除,否则图形将指示其中一个。

3.2格兰杰因果

格兰杰(Granger,1969)提出的因果性概念在计量经济学领域得到了广泛认可。然而,格兰杰因果关系并非真正的因果关系。这个概念的主要思想是:原因发生在效应之前,可以帮助我们预测效应。我们也可以推测,原因包含着关于结果的信息,这些信息以其他方式无法获取。

设Ht-1表示直到t-1时刻的所有相关信息的历史。P(xt | Ht-1)是在给定Ht-1的情况下对xt进行预测的概率。据格兰杰所述,对于给定条件,y可以对x产生因果影响。

公式12表明,通过考虑y的历史数据,可以减少x的最优预测误差的方差。我们还可以说,如果y的过去值可以改善对x的预测,那么y对x具有"因果"作用。这种描述显然建立在一致性的基础上,不直接突出y对x的因果影响:y对x的期望并不意味着y引起了x。

公式12表明,通过考虑y的历史数据,可以减少x的最优预测误差的方差。我们还可以说,如果y的过去值可以改善对x的预测,那么y对x具有"因果"作用。这种描述显然建立在一致性的基础上,不直接突出y对x的因果影响:y对x的期望并不意味着y引起了x。

无论如何,在时间上接受因果影响是有必要的(即,影响发生在原因之后),这是格兰杰的观点,在某些假设下,如果y能够预测x,那么就应该存在因果效应(Shojaie & Fox,2021)。

在格兰杰因果关系的概念中,并未提及xt和yt之间可能存在的瞬时联系。我们将瞬时因果关系称为当yt的创新和xt的创新相关联时存在。两个时间序列之间的瞬时相关通常(或至少经常)存在,但由于因果关系(在“实际”意义上)可能是正的或负的,因此通常不会对瞬时相关性进行测试。

确定单一线性模型是格兰杰最初论点的基础。通过将时间变化的变量向量t表示为𝑥𝑡 = (𝑥1𝑡,𝑥2𝑡,⋯,𝑥𝑝𝑡)𝑇。他考虑了如下由公式12表达的线性模型,在该模型中他指出,除非矩阵A0是对角的,否则通常无法确定该模型,其表达式如下公式13所示。

其中,A0、A1、..、Ad 是包含系数的p x p矩阵,d是时间序列数据中的滞后(或阶数),误差项et是p维的,可以是对角的或非对角的协方差矩阵∑。总的来说,格兰杰因果关系是识别时间序列数据之间潜在因果关系的有用工具。然而,重要的是要记住,格兰杰因果关系并不能提供因果关系的确凿证据。对于更复杂的因果查询,需要超出格兰杰因果关系的因果推断方法。


4.将因果推断纳入扩展的CRISP-DM流程

CRISP-DM是Cross-Industry Standard Process for Data Mining(跨行业标准数据挖掘过程)的缩写,它是一种常用的数据挖掘项目管理方法论。CRISP-DM提供了一套系统化的方法,用于指导数据挖掘项目的各个阶段,包括业务理解、数据理解、数据准备、建模、评估和部署。这个方法论被广泛应用于各种行业和领域,如金融、医疗、零售和制造业等。

CRISP-DM方法包括六个主要阶段:

  1. 业务理解(Business Understanding):明确业务目标和需求,确定数据挖掘的目标。

  2. 数据理解(Data Understanding):收集数据、描述数据、探索数据质量,确保对数据有充分的理解。

  3. 数据准备(Data Preparation):清洗数据、选择合适的特征、处理缺失值和异常值,为建模做好准备。

  4. 建模(Modeling):选择合适的建模技术,利用数据训练模型,并对模型进行评估和优化。

  5. 评估(Evaluation):评估模型的性能和有效性,确保模型符合业务需求。

  6. 部署(Deployment):将模型部署到生产环境中,并监测模型的性能,持续改进和优化。

CRISP-DM方法论强调了业务需求在数据挖掘项目中的重要性,并提供了一套灵活的、可重复使用的方法,以确保项目的成功实施。

在CRISP-DM过程中使用因果推断可以确保数据挖掘项目产生的结果与业务问题相关,并且不仅仅是虚假的相关性。以下是CRISP-DM和因果推断如何在BFSI行业中使用的示例:

业务理解:银行首先需要了解他们试图解决的业务问题。在这种情况下,他们可能希望减少贷款违约的数量。

数据理解:然后,银行需要收集所有客户的数据,包括他们的贷款历史、财务信息和人口统计数据。

数据准备:银行需要清理和准备数据进行分析。这可能涉及删除重复记录、填补缺失值。

建模:银行可以选择潜在的机器学习算法,并在准备好的数据集上构建模型。一旦模型生成,将根据问题陈述选择的指标对模型进行评估。

评估:银行随后需要评估其模型的结果,以确保其准确可靠。他们可能会通过将模型结果与历史数据进行比较或进行试点研究来实现这一点。

部署:一旦银行对其模型的结果有信心,他们可以将其部署到生产环境中。这将使他们能够使用模型来决定哪些客户最有可能违约,并制定有针对性的干预措施以防止违约。

XAICI:然后,银行将使用因果推断方法来估计不同因素对贷款违约的因果效应。例如,他们可能会估计信用评分、收入和债务收入比对违约可能性的影响。

值得注意的是,我们对CRSIP-DM的扩展理念与Plumed等人(2021)的理念不同,我们建议在部署之后才调用因果推断,这样其增值才能被最终用户清晰地看到。

Hernan等人(2019)讨论了反事实预测作为一种新型的数据科学问题,揭示了如何使用数据科学进行因果推断。CRISP-DM过程很适用于这项任务以及其他执行因果推断的任务(在建模步骤下),尽管专家知识和经验变得至关重要(因此,CRISP-DM过程的内部阶段更难自动化)。专家的因果知识以图形模型的形式,以及其他类型的领域知识或提取的模式,可以用来生成新的数据,例如通过对观察到的或生成的数据进行随机试验或模拟(Plumed等人,2021)。

图7描述了扩展的CRISP-ML/DM方法论,包括可解释性和因果性。它涉及两个阶段。在第一阶段,团队评估可解释性和因果性要求,从而使他们能够就使用哪种ML建模和解释技术做出明智的决定。这一决策应该增加实现项目目标和满足利益相关者期望的准确性、可解释性和因果性的可能性。在第二阶段,团队设计和开发所选的ML模型,重点关注解释性和因果性,以促进对模型输出的解释和理解(Kolyshkina和Simoff,2021)。

充分了解CRISP-DM、CRISP-ML与数据量、多样性和速度无关,我们提出了这一扩展方法论CRISP-DS用于数据科学,其中数据科学是DM的超集,DM又包括ML、统计、运筹学和数据库(AI in Banking: A Primer,2020)。

5.论文综述

图8显示了从1992年到2023年在银行、金融和保险领域发表的运用不同因果推断方法的论文分布情况。文献调研分为两个主题,第一个主题是选择与银行、金融和保险领域中运用因果推断相关的论文。金融领域进一步分为(i)公司金融,其中包括包含投资、资产等关键词的文章,(ii)金融经济学,(iii)金融治理包括关键词如金融风险、金融政策,描述时间序列的格兰杰因果的论文,(iv)行为金融,(v)会计,(vi)时间序列,以及(vii)金融服务的应用,如流失建模和信用评分、信贷放款等。此次调查论文的另一个分类是基于使用隐含或显式的因果推断方法的论文分布,包括统计方法,如(i)贝叶斯网络和(ii)格兰杰因果,(iii)反事实,以及(iv)信用评分、流失建模的可解释性。由于这些调查论文有许多重叠的论文分布,并且为了解决此类冲突,将它们分组为产生了最大词数的那个类别。例如,假设一篇论文既包含反事实又包含公司金融,而且更偏向于反事实,那么该论文将被归类为反事实类别而不是公司金融类别。这表明在过去的5年里,BFSI领域发表了更多的论文。

表格3展示了期刊文章的分布情况。表格4显示了不同会议发表的文章的分布情况,包括它们的缩写以及每个会议发表的文章数量。图9展示了从1992年到2023年发表的运用不同因果推断方法的BFSI领域论文的分布情况。从这个图表中,可以清楚地看到在过去5年中,BFSI领域发表了更多的论文。

剩下的9篇文章发表在书籍章节和预印本中,例如ArXiv和社会科学研究网络(SSRN),如表5所示。其中2篇发表在不同的书籍章节中,4篇在ArXiv上可获得,3篇在SSRN上可获得。


5.1基于领域的调查

5.1.1银行业

Kolodiziev等人(2014年)采用因果分析开发了一个综合方法来监测银行体系的稳定性。这项工作是针对乌克兰银行进行的,其包括四组指标,评估银行体系在同业市场的信贷和金融互动强度、银行体系功能的有效性、银行体系中的结构性变化和金融不均衡以及系统重要机构的活动。对指标组之间是否存在因果关系提出了假设。他们建立了线性和多项式回归模型,可以显示银行体系稳定性指数的值之间的依赖关系。当使用因果分析来监测金融系统的稳定性时,可以通过组织指标之间的因果关系来确定其评估的最重要组成部分。该指标展示了个别指标的偏差以及子指数的变化,展示了金融系统稳定性的相互依存关系。

tolbov和Shchepeleva(2020年)研究了系统性风险、经济政策不确定性和公司破产之间的因果关系。该分析考虑了由VIX指数衡量的全球波动性作为条件因素。研究采用了各种方法在时间和频率域内测试Granger因果关系。作者认为,系统性风险、经济政策不确定性或VIX指数对破产的影响取决于银行在私营非金融部门进行去杠杆化的规模。

5.1.2. 金融

金融拥有许多不同的子领域,例如企业金融,涉及公司的资本投资;金融经济学,处于金融和经济学交叉点上;金融治理,涉及政策制定和管理这些政策、运营、会计和时间序列。

5.1.2.1 企业金融

龚等(2019)利用中心性指标分析了网络拓扑结构。从时间和空间维度的角度出发,分析了金融机构之间的因果复杂网络,并测量了系统性风险的动态变化。接下来采用了接近度和特征向量中心性等中心性技术。采用了三种不同的系统性风险指标,即系统性风险指数(SRISK)、边际期望损失(MES)和条件风险值(CoVaR)。中国金融市场的银行、证券和保险业采用了推荐的方法框架。金融实体作为顶点,因果方向作为因果网络的边。当系统性风险增加时,建议的网络框架可以提供一个可靠的预警工具。

5.1.2.2 金融经济学

戴维斯(2023)指出,在文献中发现了十二种模型,这些模型表现出明显的非弹性需求,与古典模型不同。这是因为在现实世界的情况下,难以对抗价格变化,这证实了需求弹性的估计。有两种类型的预测因子,(i)直接函数,它依赖于价格比率变量,以及(ii)与价格无关的预测因子。随后进行的反事实实验为现任投资者带来了62个异常结果,这些实验使用的是等级相关性而不是标准相关性。

5.1.2.3 金融治理

拉维旺邦等(2022)利用因果图、图形可视化和图形异常检测确定了风险配置变化或限额突破的潜在原因。资产管理公司的风险经理每天需要跟踪100至250个投资组合。这些投资组合中每个都合并了超过160个风险因素。传统方法忽略或忽视的基础资产之间的因果关系可能会在轻微危机期间导致各种类型的投资组合之间出现意想不到的显著相关性。将组合风险配置的聚合层次聚类(AHC)与网络可视化结合使用,作为更简单、更实用的替代方案。有效转移熵(ETE)是一种非参数方法,可以检测到线性和非线性的统计依赖关系。在实用性和技术要求方面,将AHC分析和风险暴露率的价值替代使用因果图。

5.1.2.4 行为金融

Rigana等(2021)设计了一种用于外汇市场中个别货币之间传染的新测量方法,并展示了如何使用因果推断来分析外汇内的传染路径。网络污染基于因果图模型理论。要分析的N个资产及其对数收益被表示为多元随机变量。

Tsapeli等(2017)展示了社交媒体情绪对交易资产的因果影响。股票市场回报受情感、社交和心理因素的影响。单纯的相关性分析不足以证明股票回报受这些情感因素的影响。研究了社交媒体发布的信息对苹果、微软、亚马逊和雅虎四家大公司股票市场回报的因果影响。推文使用公司名称和股票符号进行收集。其结果与多变量Granger因果模型和基于Runge框架的信息理论方法进行了比较。发现Twitter数据极性确实对股票市场价格有因果影响。这种方法的缺点是基于观察数据而不是实验程序,可能会导致在缺少混杂变量的情况下出现偏差。在B2B行业进行类似的分析是一个开放性问题,可以进一步探讨。

5.1.2.5 会计

事件研究是会计和金融研究中最常用的方法之一。Castro(2017)开发了一个框架,将金融中的估计方法与当代对因果事件的方法联系起来。事件前的时间和感兴趣的结果变量,通常是股票持有期回报,是传统金融事件研究的标准组成部分。事件窗口通常被定义为围绕事件的时间间隔[T0 - d,T0 + d],其中d是事件周围的天数。

5.1.2.6 时间序列

分析罕见事件的因果影响非常重要,因为它们造成的影响是最关键的。这在金融和其他领域(如生物信息学和计算科学)中非常重要。因此,Kleinberg(2013)提出了一种评估罕见原因(ARC)方法,用于推断罕见事件的因果关系,从而改善决策。ARC首先计算意外和条件未解释值,并推断正常模型。随后,对每一对关系进行无配对t检验以确定统计显着性。ARC在两种不同的场景中进行了测试,其中(i)罕见事件的影响是恒定的,(ii)罕见事件的影响具有功能性。

Kleinberg等(2010)设计了一种新的算法框架来推断时间序列数据的因果关系,并将该框架应用于时间序列数据。在这个提出的框架中,因果关系由逻辑公式表示,以便以计算效率的方式测试任意复杂的假设。在命题概率分支时间逻辑(PCTL)中,对价格数据进行了累积,这些数据来自于各种时间尺度上的兴趣率公告、收益报告、新闻报道甚至推文。

Moraffah等人(2021)专注于两个因果推断任务,即治疗效应估计和时间序列数据的因果发现。根据当前的方法,因果治疗影响估计面临各种情况的挑战,并描述了每个类别中的前沿方法。时间不变的治疗效应被定义为在单一时间点发生的治疗,之后保持恒定,称为时间不变或固定,而时间变化的治疗效应用于Granger因果关系和条件独立性的方法中。

Peters等人(2013)研究了一类称为独立噪声时间序列模型(TiMINo)的受限结构方程模型。与传统方法如Granger因果关系不同,TiMINo要求具有独立残差时间序列。时间序列数据作为输入,输出要么是计算摘要时间图的DAG,要么是模棱两可的。作者修改了用于加性噪声模型的方法,用于没有反馈环路的时间序列。它可用于建模无条件独立性,可用于多变量、线性、非线性和瞬时交互数据。此外,TiMINo考虑了受限制的结构方程模型导致的可识别性。

Chikahara和Fujino(2018)采用了监督学习框架分类器,而不是时间序列因果推断的回归模型。通过特征表示和历史变量值确定条件分布之间的距离。多变量时间序列可以添加到分类器框架中。以下数据集用于双变量时间序列(i)合成数据集:包含15000对长度为T=42的合成时间序列(ii)真实世界数据集,五对双变量时间序列包括因果对数据库,以及用于多变量时间序列的Geiger等人(2013)提出了两种估计技术,并使用模拟和真实数据进行了评估。这两种算法专门设计用于解决条件1)非高斯、独立噪声或(2)X对Z没有影响的情况。X和一些隐藏的未测量时间序列Z形成了一阶向量自回归(VAR)过程,其转移矩阵为A。首先,调查了从所提供的数据中识别底层系统的因果特征的先决条件。随后,提出了估计技术,并且证明它们在相应条件下对模拟数据进行了操作。

5.1.2.7 其他应用

Rudd等人(2017)提出了一种流失预测系统,几乎适用于所有非订阅型业务设置。在这个框架中,首先通过使用多层感知器(MLP)计算流失预测分数,然后通过执行因果分析来预测可能的原因。为了进行因果分析,采用了结构方程模型(SEM)和基于反事实的模型来识别客户流失的原因。除此之外,他们提出了一种基于客户互动的最新、频率和货币(RFM)方面的新型特征工程过程,用于识别重要客户。通过采用这种新型特征工程技术,模型的性能得到了显著提升。

信用评分中的决策主要受以下两个因素影响:(i)选择偏见和(ii)有限的历史测试。这促使Fahner(2012)提出了一种可以处理多个序数或分类处理效应的方法。使用这种方法,观察到以下优点:(i)通过利用支持区域提取局部信息,(ii)全局模型通过使用局部信息来导出。作者在基于风险定价和信用额度增加问题上测试了他们提出的框架。在两个数据集中,通过使用提出的模型获得了复杂的因果关系。

5.1.3. 保险

Guelman & Guillén(2022)应用了利率变化对保单持有人流失率的因果效应。假设保单持有人的流失率包括了与价格弹性和其他解释变量之间的潜在关联的协变量。该模型建立了一系列流失概率模型,针对每个利率变化水平进行训练,使用了内置的变量选择程序的GBM。为了进行因果效应估计,使用了倾向得分和匹配算法,以找到暴露于不同利率变化水平的保单持有人对。最后,从匹配对中得到了反事实结果。该模型将帮助管理者为每个保单持有人选择最佳的利率变化水平,以最大化公司的总体利润。表5显示了基于领域的文章分布,根据期刊文章数量、会议数量和预印本进行分组。

5.2. 基于因果推断方法的调查

在这一部分,我们根据因果推断方法将研究论文分为以下几类:统计学方法,如贝叶斯因果网络和Granger因果性;反事实推断的应用;以及金融服务中的可解释性,包括流失预测、信用评分等。

5.2.1. 贝叶斯因果网络

Jacquer & Polson(2012)对金融领域的各种贝叶斯计量方法进行了调查。它关注了与马尔可夫链蒙特卡洛(MCMC)和粒子滤波(PF)算法相关的应用。MCMC允许对复杂模型和潜在变量进行推断,通过考虑后验概率。MCMC在如何处理随机波动性(SV)方面进行了讨论。PF算法有助于比较不同的离散时间方法。贝叶斯方法应用于各种应用场景,包括最优组合设计、收益可预测性、资产定价、期权定价等。

为了克服操作风险建模相关数据的异质性和可用性不足,Sanford和Moosa(2012)开发了适用于操作风险建模的贝叶斯网络结构。它被建模为澳大利亚银行中的结构化金融运营(SFO)单元。作者将该方法分为三个不同阶段的步骤。(i)结构发展和评估。(ii)概率引导和参数估计。(iii)模型验证。在第一步中,识别了所有相关的因果关系,没有引发或学习参数。将研究节点之间的所有依赖关系。输入将来自各种领域专家,他们不参与网络设计,以识别全面、明确的因果关系。在第二阶段,通过参考基于领域的实验结果计算边际和条件概率。最后,在结束时,通过进行各种方法,如(i)引导审查,(ii)敏感性分析和(iii)案例评估来评估构建的模型。

Gao et al. (2017)提出了一种新颖的压力测试框架,将Suppes-Bayes因果网络(SBCNs)与各种分类算法结合起来。SBCN是传统贝叶斯因果网络的变体,属于概率图模型。SBCN与传统贝叶斯因果网络的区别如下:(i)使用概率因果关系来寻求更好的解决方案。(ii)在捕获条件独立性的同时,还捕获了不同变量之间的表面因果关系。(iii)通过使用最大似然估计(MLE),去除了所有的虚假因果。作者在各种压力场景下进行了各种实验。在所有场景中,SBCNs在计算和数据使用方面都表现出了效率。

5.2.2. Granger因果性

Stavroglou等人(2017)进行了金融资产研究。研究人员将处理金融资产的方法分为8种不同类型。其中,线性跨期交叉相关(LICC)和非线性跨期交叉相关(NICC)非常流行且广泛应用。作者强调了研究因果推断和干预的重要性,这有助于避免像2007-2009年期间发生的金融危机等金融灾难。收集了以下金融资产:(i)来自主要经济国家(如美国、日本、中国、印度等)的股票市场指数,(ii)来自美国、中国、意大利等国的政府债券,(iii)油价。作者利用LICC和NICC分析了经过时间考验的因果关系。结果表明,LICC和NICC中有50%的链接是共同的,并且每种方法都有其自身的重要性。作者展示了油价上涨对中国股市崩盘的影响。现有方法主要集中在机器学习预测上,但研究因果关系和干预在金融危机等关键时刻是非常宝贵的资产。因此,(Tiffin,2019)对金融危机对增长的影响进行了实证经济研究。该研究着重于因果随机森林算法。利用该算法,作者研究了与变量相关的风险以及需要遵循的潜在阈值,观察了非线性,并研究了汇率的潜在作用以及它如何在影响国家发展方面发挥关键作用。

Eichler(2013)讨论了虚假因果性的问题以及解决这些问题的方法。作者讨论了在实证应用Granger和Sims因果性时遇到的困难。此外,还使用了一种学习识别方法,该方法利用潜在变量来学习因果时间序列结构。分析罕见事件的因果影响,因为它们造成的影响是最关键的。这在金融和其他各种领域,如生物信息学和计算科学中都非常关键。

5.2.3. 反事实分析

Lundberg & Frost (1992)首次研究了反事实在营销领域的影响,这个领域的情况总是在不断变化和不可预测的。作者进行了经验分析,并在交易的背景下测试了从规范理论中推导出的假设。作者指出,反事实有助于进行动态决策环境下的决策制定。作者讨论了事后决策处理的重要性,以分析之前构建的营销策略所带来的影响。

Svetlova (2009)主要指出,“反事实分析非常重要,应该被视为社会生活的一个元素,而不仅仅是人类心理的一部分”。本文研究了投资组合管理背景下的反事实以及它对金融市场的不利影响。投资组合管理在很大程度上受到以下因素的影响:基本因素、政治因素、宏观经济因素等。作者提到,反事实将帮助我们维护投资组合。

Brodersen等人(2015)提出了一种利用扩散回归状态空间模型估计因果影响的新方法。与传统的差异法不同,状态空间模型具有几个优点。首先,它们能够推断可归因影响的时间进展。其次,这些模型允许使用完全贝叶斯处理在参数上加入经验先验。最后,它们在适应多种变化来源方面具有灵活性,包括本地趋势、季节性以及同时变化协变量的不同影响。

Gan等人(2021)设计了一个模型无关框架,用于生成可行的反事实,以进行模型风险管理。作者使用云原生算法自动化了工作流程。他们通过使用kubeflow实现了容器化和工作流程编排。作者在Freddie Mac数据集上评估了设计工具的性能。

Wang等人(2023)提出了一种新的稀疏算法,用于将反事实解释视为一个优化问题。通过这个算法,对于更高维度的输入,稀疏性被最大化,以解决公司的企业信用评级问题。信用评级加速了购买或发行债券。对于高维度输入的分类,函数不是单射的,这是反事实解释面临的主要挑战。通过引入一种新的稀疏算法,他们最小化了受小变化影响的特征数量,从而为这些特征提供了反事实解释。

5.2.4. 可解释性方法

企业并购(M&A)代表了每年数十亿美元的投资,对人工智能来说是一个既引人入胜又困难的领域。不幸的是,在金融文本分类中,可解释人工智能(XAI)的新研究几乎没有得到关注,而目前许多用于生成基于文本的解释的算法产生了非常不可信的解释,这损害了用户对系统的信心。为了解决这些问题,Yang等人(2020)提出了一种新颖的方法来创建可信的反事实解释。首先,必须在M&A预测工作中对变压器变体进行优化,同时进行对抗训练。在预测之后,使用采样上下文分解技术确定测试案例中的关键词。第三,通过用语法上正确的替代词替换这些术语,生成了反事实解释。作者进行的广泛的定量研究表明,与最先进的技术和人类表现相比,这种技术不仅提高了模型的准确性,而且生成的反事实解释在人类试验中明显更具可信度。

信用申请是使用商业的、可互换的黑盒分类器进行预测的,并且使用反事实理由来解释个体预测结果。Grath等人(2018)将一个权重向量添加到距离度量中,以支持对高度区分性特征进行反事实操作。为了创建这些权重向量,提出了两种方法。第一种方法是基于方差分析(ANOVA)F值来确定每个特征与目标之间的全局相关性。第二种方法使用最近邻技术来聚合相对于x的邻域的相对变化。

Dastile等人(2022)使用定制的遗传算法来为黑盒模型的预测生成简明而稀疏的反事实解释。他们使用公开可访问的信用评分数据集评估了他们方法的有效性。他们的方法提供的解释也可以用于阐明已批准的贷款申请的原因。此外,通过开发一个能够有效捕捉反事实解释各种特征的最佳适应性函数,可以提高该方法的性能。此外,不仅仅集中于解释个别实例,还阐明黑盒模型的基本工作原理可以显著提高信用评分模型的透明度和可解释性。

Bueff等人(2022)提出了一种新颖的方法,以解决用于信用评分的机器学习模型缺乏可解释性的问题,引入了反事实解释的概念,这些解释揭示了输入变量的变化如何影响信用评分结果。通过生成反事实场景,作者旨在更好地理解输入变量与信用风险之间的关系,从而增强模型的可解释性。该研究利用信用申请数据集,并采用各种机器学习算法开发信用评分模型。这些场景模拟了输入变量(如收入或未偿债务)的潜在变化,并检查其对信用评分的影响。

表6汇总了通过将因果推断方法与领域和子领域类别相结合的调查论文,其中添加了一列描述作者在各自论文中使用的数据集。(没放进来)

总体而言,文献中确定了以下研究空白:

  • 几乎所有在调查论文中提出的研究工作都在特定的假设和条件下使用因果推断。因此,利用这些技术实现泛化性是一个重要的研究方向。

  • 通过使用因果推断,可以研究所采用模型在对抗性情况下的表现。这确实有助于评估风险或警告,并有助于设计早期预警系统,与传统的预警系统不同。

  • Kolodiziev(2014)、Davis(2023)等研究仅在解决相应问题时使用了少量技术指标。因此,包含更多技术指标并研究治疗方法是非常重要的,可能是一个潜在的研究方向。

  • 所有现存的研究工作都需要设计成适用于大数据的5个V,即速度、准确性、容量、价值和多样性。因此,需要考虑可扩展性方面,这可能会吸引工业从业者以及研究人员。

  • 在应用于时间序列相关问题时,现有工作可能存在以下潜在缺失:

    • 处理罕见事件现在至关重要,尤其是在使用因果推断时。这些罕见事件可能代表需要以独特方式分析和处理的关键事件。

    • 研究从各个横截面团队收集到的增强数据,并研究各种治疗方法也是一个潜在的未来方向。

    • 探索时间变量和时间不变量,并设计独特的治疗方法也非常重要。

    • 在采用各种治疗方法时,还需要考虑解决未知时间延迟的问题。

  • 改进基于文本的解释对于理解反事实的影响至关重要。这确实提高了解释的质量,使其成为更好的领域无关的模型解释。

  • 在采用因果推断时,需要解决稀疏性和准确性之间的权衡。此外,采用可解释人工智能也非常重要,以提供更好的治疗解释。

  • 设计启用因果分析的数据科学/人工智能/机器学习模型,用于解决银行业务用例,如流失预测、欺诈检测、股票市场预测、大规模投资组合分析等,可能是未来的潜在方向。

  • 在每个领域的决策阶段常常面临选择偏差问题。因此,可以在该阶段采用因果推断来研究选择偏差对结果的影响。

6.因果推断的工具和软件 一些用于因果估计并在银行金融服务行业(BFSI)中有用的工具和软件在表7中进行了总结,并在接下来的段落中进行了解释。

DoWhy (Sharma & Kiciman, 2020) 是一个广受好评的综合性工具,专注于因果推断,使用Python开发。DoWhy包括四个主要任务:使用因果图对因果问题建模,确定所需的因果估计量,估计因果效应,并验证所获得的结果。该工具目前包括几种识别策略,例如前门标准和工具变量。此外,DoWhy与EconML (Battocchi et al., 2023)提供的广泛范围的基于机器学习的估计器无缝集成。EconML模型使用户能够方便地选择最适合其特定查询的模型。

CausalML (Chen et al., 2020) 是一个Python包,提供一系列基于机器学习的提升建模和因果推断方法,建立在最新的研究基础上。它允许在个体层面估计处理效应,从而实现个性化推荐和优化。它支持提升建模,使用实验数据衡量处理对个体行为的增量影响。例如,如果一家公司想在多个产品线之间选择向其客户进行升级或交叉销售,CausalML可以作为一个推荐引擎,为每个用户确定可能产生最大预期改善的产品。

倾向得分匹配和双重鲁棒估计器也可以在其他工具中找到,例如Matching (Sekhon, 2011)、CausalGAM (Glynn & Quinn, 2017)和ipw (Van Der Wal & Geskus, 2011)。双重鲁棒估计器也可以在CausalGAM中找到,这是一个R库,提供标准估计器和AIPW估计器。ipw包实现了逆概率治疗加权法,适用于时间固定和时间变化的框架。


7.对研究者和管理者的影响

没放进来


8.结论

本文全面调查了几项工作,突出了因果推断在解决银行金融服务领域各种问题中的实用性。特别是在过去五年中,因果推断方法的发展出现了显著增长,研究了反事实等,以设计一个健壮的机制。然而,在银行和保险行业,因果推断仍处于起步阶段,因此在这一利基领域需要进行更多的研究,以使其成为一种可行的方法。在时间序列中,由于格兰杰因果性的使用,已经进行了大量研究。


9.未来研究方向

在调查了这些论文之后,我们确定了以下潜在的开放性研究问题: 将反事实优化构建为多目标优化(MOO)问题:为了实现这个目标,可以采用MOO算法,如非支配排序优化算法(NSGA-II)、带分解的多目标优化算法(MOEA/D)、非支配排序粒子群优化算法(NSPSO)等。在文献中,遗传规划已被广泛用于优化反事实,其中接近度和多样性是目标函数。 利用因果分析进行破产预测:可以研究在什么情况下银行会破产,通过将因果分析作为规范分析工具。 入侵检测中的网络攻击:生成的反事实可以用作逃避样本,评估部署的入侵检测算法在不利情况下的表现。 使用干预和优化反事实进行流失分析:目前的机器学习模型只能区分客户是否会流失。然而,因果分析推荐了保留忠诚客户和重新赢回流失客户所需做的事情。 ATM放置的因果分析:因果分析还可以进一步应用于组合优化问题,如ATM的合适放置、合适的政策建议等,这些问题具有运营意义。 用户行为分析:因果推断还可以在获取用户行为模式和不良用户之间的相关性方面发挥潜在作用,这将增加潜在候选人等。 基于知识图谱的因果推断:基于知识图谱的图表具有关键信息,涉及其应用领域。因此,扰动它可能会产生更多的见解,可能会改进业务。 将反事实扩展到其他保险问题:此外,可以将这些研究扩展到不仅仅是基于医疗保险,还包括旅行保险、人寿保险和火灾保险等许多其他保险领域。目前,反事实研究已在汽车保险中进行。 研究缺失值的影响:通常,现实世界的数据集存在缺失值。然而,这对决策产生不利影响,特别是在金融和医疗保健领域。因此,研究由缺失值引起的不良影响以及它们对业务策略的影响也是一个潜在的问题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值