基于树模型的uplift model论文直翻

文章探讨了提升建模在处理营销干预导致的行为变化中的重要性,指出传统的响应模型并不衡量增量影响。提升建模通过对比处理组和对照组的行为差异,提供了一种更准确的建模方法。文章讨论了提升树作为建模工具的细节,以及变量选择、模型构建和质量衡量的考虑,强调了在客户管理,尤其是需求刺激和客户保留中的应用。
摘要由CSDN通过智能技术生成

        本文试图记录“提升建模”的现状,即对特定处理(如营销干预)直接导致的行为变化进行建模的实践。我们包括了基于显著性的抬升树的详细信息,这些树构成了目前唯一可用的打包抬升建模软件的核心。本文总结了在实践中使用提升模型得出的一些结果,并举例说明了需求刺激和客户保留应用。它还调查和讨论了隆起建模变量选择、模型构建、质量措施和隆起后评估所涉及的每个主要阶段的方法,所有这些都需要与传统响应建模不同的方法。

1组织

        我们首先在第2节中激励和定义隆起建模,然后回顾隆起建模的历史和文献(第3节),包括结果回顾。
        接下来,我们将依次介绍构建和使用隆起模型所涉及的四个关键领域。我们从质量衡量标准和成功标准的定义开始(第4节),因为这些是所有其他领域的概念先决条件。然后,我们继续讨论模型构建的核心问题,首先讨论了一些可能的方法(第5节),然后详细介绍了我们多年来成功使用的基于核心树的算法,我们称之为基于显著性的提升树(第6节)。接下来,我们讨论变量选择(第7节)。这一点很重要,因为传统模型的最佳变量不一定是预测隆起的最佳变量(在实践中,通常不是)。我们以一些最后的评论结束了主体(第8节),主要是关于在实践中,提升建模方法何时可能提供有价值的额外价值。

2引言

2.1客户管理中的预测建模

        自20世纪50年代初引入统计信用评分以来,统计建模已被应用于客户管理的问题,当Fair Isaac公司的咨询公司成立时(Thomas,2000)。1随后,预测模型在客户定位方面的应用越来越复杂,尤其是在需求刺激和客户保留方面。

        随着时间的推移,我们已经看到:
1.渗透(或相似)模型,旨在描述已经购买产品的客户的特征。它们的使用是基于这样一种假设,即与已经购买的人具有相似特征的人将是好的目标,这种假设在远未饱和的市场中往往具有最大的有效性;

2.购买模型,旨在描述在最近历史时期购买的客户。这些类似于渗透模型,但将注意力限制在最近的过去。因此,他们可以对整个产品购买周期中客户特征的变化更加敏感,从早期采用者到主流大多数人再到落后者(Moore,1991);


3.“响应”模型,旨在描述购买的客户对某些(直接)营销活动(如一封直邮)的明显“响应”。有时,“响应者”的识别涉及优惠券或响应代码(“直接归因”),而在其他情况下,它只是基于客户在某个受限制的时间窗口内收到通信和购买的组合2(“直接归属”)。
“响应”模型通常被认为比渗透模型和购买模型更复杂,因为它们至少试图将购买结果与旨在刺激该活动的营销活动联系起来。

所有这些类型的建模都属于“倾向建模”的一般范畴。
        在留住客户方面,也有类似的进展,从有针对性的收购计划开始,然后是预测哪些客户最有可能离开的模型,特别是在合同续签时间前后。这种“流失”或“流失”模型现在通常与价值估计相结合,使公司能够更准确地专注于保留价值,而不仅仅是客户数量。

2.2衡量直销的成功:

        对照组大多数直销的主要目标是实现客户行为的某些特定变化。这方面的一个常见例子是由一群客户或潜在客户刺激额外购买。虽然可能有一些次要目标,如品牌知名度和客户商誉的产生,但大多数营销活动主要是根据某种投资回报率(ROI)计算进行评估的。
        如果我们一开始就把重点放在创造增量收入的具体目标上,那么很明显,衡量成功是不平凡的,因为很难知道如果没有进行相关的营销活动,会达到什么样的销售水平。众所周知,关键是使用对照组,通过将治疗组的表现与从目标人群中随机选择的有效对照组的表现进行比较来衡量直销活动的增量影响是一种公认的最佳实践。

2.3传统倾向建模的提升批判

       虽然人们普遍认为,准确衡量直销活动的影响需要通过系统和谨慎地使用对照组来关注增量,但在选择目标人群时,人们对关注增量的必要性的认识要少得多。第2.1节中讨论的倾向建模方法都不是为了建模增量影响。
      因此,反常的是,今天大多数有针对性的营销活动,即使是以增量影响为基础衡量的,也是以非增量模型为基础的。人们普遍认为,无论是渗透模型还是购买模型,都没有试图对客户行为的变化进行建模,但人们较少认识到,所谓的“反应”模型也不是为了对增量影响进行建模。他们不这样做的原因是,结果变量4必须基于测试设置,例如“在邮件发送后6周内购买”或使用某种优惠券、代码或自定义链接。这种方法试图将购买与活动联系起来,无论是暂时的还是通过代码。但是,尽管这些提供了一些证据,表明客户受到了营销活动的影响(或至少知道),但它们决不能保证我们将自己局限于增量购买者。这些方法也可能无法记录受影响但出于任何原因不使用相关优惠券或代码的客户的真正增量购买。

出于同样的原因,我们拒绝通过计数响应代码或计数内的所有购买来对营销行为的增量进行有缺陷的测量作为一个时间窗口,如果我们的目标是对特定营销干预导致的行为变化进行建模(如果我们的成功指标是增量的,那肯定应该如此),我们必须拒绝基于非增量结果的有缺陷的建模。
当响应代码与折扣或其他激励相关联时,会出现一个值得特别指出的常见情况。如果已经决定购买给定商品的客户收到一张优惠券,该优惠券提供该商品的折扣,那么在许多情况下,客户可能会选择使用该优惠券。(事实上,乐于助人的销售人员向客户指出优惠券和优惠并不罕见。)显然,在这些情况下,无论优惠券上的代码显示什么,销售额都不是递增的5。事实上,在这种情况下,不仅包括客户在内的营销成本增加了,而且从某些角度来看,增量收入也减少了,这几乎是最糟糕的结果。

2.4不幸命名的“响应”模型

我们怀疑,“响应模型”一词本身就是一个重大障碍,阻碍了人们更广泛地认识到营销中所谓的“响应模式”并不是可靠的增量。“反应”一词是(故意的)负载的,具有明确无误的因果关系内涵。冒着混淆这一点的风险,《牛津英语词典》的第一个回应定义(洋葱,1973年,第1810页)是:
回答1.一个答案,一个回答。b.变压器。一种对某种刺激或影响作出反应的动作或感觉。
虽然我们期望改变历史上公认的命名法是不现实的,但我们鼓励谨慎使用“反应”模型。
如前所述,我们对真正模拟行动增量影响的模型的首选术语是“提升模型”,尽管我们将看到,也使用了其他术语

2.5传统模型和提升模型

假设我们将候选群体随机划分为两个子群体,T和C。然后,我们对T的成员应用给定的处理,而不是对C应用给定的治疗。首先考虑二元情况,我们表示结果O∈{0,1},这里假设1是理想的结果(比如购买)。
传统的“响应”模型预测T中客户的O为1的概率。因此,传统的模型适合

P(O=1|x;T),(传统的二进制“响应”模型)(1)

其中P(O=1|x;T)表示“给定由变量x的向量描述的客户在子群体T中的O=1的概率”。注意,控制组C不起这个定义的任何作用。相反,隆起模型适用于P(O=1|x;T)−P(O=1 |x;C)。(二元提升模型)(2)因此,当传统的“响应”模型试图估计如果我们对待他们,客户会购买的概率时,提升模型试图估计我们对待他们时,他们购买概率的增加,而不是如果我们不对待他们,他们购买的概率的增加。现在的明确目标是对T和C之间的购买行为差异进行建模。
从此以后,我们不会在这样的方程中明确列出x的依赖性,但应该假设它。
我们可以对非二元结果做出同等的区分。例如,如果兴趣的结果是对购买规模的某种衡量,例如收入R,则传统模型拟合e(R|T)(传统的连续“响应”模型)(3),而提升模型估计

E(R|T)−E(R| C)(连续隆起模型)(4)

3历史与文献综述

作者对预测增量反应的兴趣始于1996年左右,当时他们正在咨询和构建分析营销的商业软件。7当时,最广泛使用的建模方法是各种形式的回归和树。8更常见的回归方法包括线性回归,逻辑回归和广义加性模型(Hastie&Tinshirani,1990),通常以记分卡的形式。最受欢迎的基于树的方法包括分类和回归树(CART;Breiman等人,1984),以及在较小程度上的ID3(Quinlan,1986)、C4.5(Quinland,1993)和AID/CHAID(Hawkins&Kass,1982;Kass,1980)。正如引言中所述,这些被用来建立倾向模型。我们很快就清楚了,由于上述原因,这些并没有导致直销资源的最佳分配,其结果是,它们不允许我们准确地针对受营销待遇影响最积极的人。

       我们开发了一系列基于树的算法来处理隆起建模,所有这些算法都基于大多数基于二叉树的方法(如CART)通用的通用框架,但使用了修改的分割标准和质量度量。树方法通常从使用贪婪算法的增长阶段开始(Cormen等人,1990)。
        这种贪婪算法从树根处的整个种群开始,然后使用适当的质量度量来评估大量的候选分裂。标准方法为每个(潜在的)预测器考虑多个分割。9然后选择最佳分割,并对每个子种群递归地(独立地)重复该过程,直到满足某种终止标准——通常是在树很大的时候。
       在许多变体中,然后有一个修剪阶段,在此期间,为了避免过度拟合,一些较低的分割被丢弃。本作者在1999年的一篇论文(Radcliffe&Surry,1999)中概述了我们的方法,当时我们使用差分响应建模一词来描述我们现在所说的上行建模。10当时,我们没有公布我们(当时)的分裂标准,但我们现在在第6节中详细介绍了我们目前改进的标准。其他研究人员已经独立开发了解决同一问题的替代方法,不幸的是,几乎在每种情况下都使用了不同的术语。

        美国银行发现,针对向现有客户推销高价值产品的(实物)邮件,“响应”模式是非常不成功的。当整个基地成为目标时,这是有利可图的(基于对照组的增量销售额),但当传统“响应”模型确定的前30%成为目标时时,结果几乎完全是零增量销售额(以及由此产生的负ROI)。
这是因为“反应”模式只成功地针对了那些无论如何都会购买的人。提升模型成功地确定了不同的30%,当目标确定时,产生了目标人群实现的增量销售额的90%,并相应地将严重亏损的营销活动转变为高度成功(盈利)的营销活动(Grundhoefer,2009)。11
•移动客户流失减少计划实际上将客户流失率从9%提高到了10%
在隆起建模之前。隆起模型允许识别30%的细分市场。仅针对这一细分市场,整体流失率从9%降至8%以下,同时支出减少了70%(Radcliffe&Simpson,2008)。这对供应商的估计价值为每年每百万用户800万美元。
•不同的移动客户流失减少举措(在不同的运营商)成功地将客户流失减少了约5个百分点(pp),但提升模型能够识别出25%的人口活动处于边缘或适得其反通过仅针对已确定的75%,总体保留率从5个百分点提高到6个百分点(即节省了20%的客户),同时降低了成本(Radcliffe&Simpson,2008)。用户群中每百万客户每年的价值约为800万美元。

我们还发表了一份基于MineHatData(Hillstrom,2008)的Kevin Hill-strom(Radcliffe,2008)提出的挑战的电子零售分析。
微软研究所的Maxwell等人(2000年)描述了他们以邮件为目标,试图销售MSN等服务的方法。和我们一样,他们的方法基于决策树,但他们只是在整个种群(处理和控制)上建立一个标准树,然后在每个叶节点强制拆分处理变量。这种方法的主要限制是,没有选择树中的裂缝来适应隆起;只是最后的估计被调整了。作者没有将其与非提升算法进行比较,但报告称,与每人0.05美元至0.20美元的“邮件到所有人”策略相比,该算法具有优势。
Hansotia&Rukstales(20012002)描述了他们所谓的内部价值建模方法,该方法涉及使用两个亚群体中原始隆起的差异作为分裂标准。事实上,这是一种自然的方法,但有一个明显的缺点,即没有考虑到种群规模,导致过度强调小种群,观察到训练种群的高度上升。
Lo(2002)在富达投资公司从事直销工作期间,一直对他所说的True Lift Modeling保持着长期的兴趣。他开发了一种方法,该方法基于在每个预测因子和治疗之间添加明确的相互作用项。添加了这些术语后,他进行了标准回归。为了使用该模型,他计算了将治疗变量设置为1(表示治疗)的预测,并从将治疗变量设为0的模型中减去预测。多年来,Lo一直使用这种方法来支持富达的直接营销(Lo,2005),并取得了良好的成功。

       Manahan(2005)从一家手机公司(Cingular)的角度解决了这一问题,该公司试图在合同续签期间针对客户进行保留活动。正如Manahan所指出的,在这种情况下需要注意的一个额外原因是,有明确证据表明,保留活动会对一些客户产生反作用,并产生将他们赶走的净效果。Manahan称他的方法为比例危险方法,该论文是根据生存分析(因此使用了“危险”语言)来表述的,但仔细阅读,预测隆起的核心方法似乎是“两个模型”方法,如Hansotia和Rukstales(2001),即直接减去治疗和未治疗人群的模型。Manahan同时使用了逻辑回归和神经网络模型,并发现在他的情况下,神经方法更成功。(Manahan从他的提升模型中创建了客户流失率的滚动预测,并将其与已知的生存曲线进行比较,这既是一种验证形式,也是对模型选择的一种输入。)除了这些已发表的方法外,我们还看到许多组织尝试了将两个群体(治疗和控制)分别建模并减去预测的自然方法。这具有简单和明显正确的优点。不幸的是,正如我们在第5节中所讨论的那样,根据我们的经验,除了最简单的情况外,在所有情况下,它往往会失败得相当严重。(我们称之为“两种模式”的提升方法建模。)最近,Larsen(2010)报道了嘉信理财使用他所说的净升力建模的工作。他的方法与我们的方法更接近,因为它从根本上改变了拟合过程中优化的数量,使其上升(净升力)。他使用证据权重变换的修改(Thomas,2000)来产生证据的净权重,然后将其用作使用K近邻方法(Hand,1981)或Naıve Bayes方法(Hand&Yu,2001)进行拟合的基础。Larsen还建议使用“信息值”(净信息值)的净版本进行变量选择。
        最后,Rzepakowski和Jaroszewicz(2010)提出了一种基于树的隆起建模方法,该方法基于推广经典的树木构建分割标准和修剪方法。他们的方法基本上是基于使用分歧统计来比较治疗人群和对照人群的结果分布的想法,他们考虑了两个,一个基于Kullback-Leibler分歧,另一个基于欧几里得度量。尽管我们还没有进行实验比较,但我们注意到,他们的方法在一定程度上是围绕着一个假设设计的,即如果对照组为空,则分裂标准应简化为经典分裂标准。这对我们来说似乎并不自然;一个更合适的要求可能是,当对照人群的应答率为零时,分裂标准应降至经典情况。我们还担心,他们提出的分裂条件与总体人口规模无关,而我们的经验是,这在嘈杂的现实世界中是至关重要的。最后,令人不安的是,提升的标准定义(即治疗和对照结果率之间的差异)不能用于他们的分裂标准,因为隐含的要求是分布差异的度量是凸的。

4质量措施和成功标准

       给定一个有效的对照组,计算一次活动中实现的提升是直接的,尽管会有相对较大的测量误差。评估(提升)模型的性能更为复杂。
       我们发现,如图1所示,增益曲线的上升等效值是评估模型质量的一个有用起点(Radcliffe,2007;Surry和Rad-cliffe,2011年)。这种增量增益曲线类似于常规增益曲线,不同之处在于它们显示了对垂直轴的累积增量影响的估计,其中常规增益曲线显示了累积原始结果。
如果我们预先确定了一个临界值(例如20%),我们可以直接使用提升作为模型质量的衡量标准:在这种情况下,model 1在20%的目标销量下是优越的12,因为它提供了估计450的增量销售额,而model 2提供了估计380的增量销售额。当目标交易量超过40%时,情况发生逆转。

图1:这条增量收益曲线显示了两种不同模型针对不同比例人口的效果。在每种情况下,人们都是按照所讨论的模型的排名,按照质量的降序进行选择的。在这种情况下,纵轴显示了对实现的增量销售额的估计。这一估计是通过比较治疗人群和对照人群的累积购买率(以模型得分为目标)得出的(第4.1节)。纵轴也可以标记为“上升”,并以百分点为单位进行测量。对角线显示了随机瞄准的效果。请注意,使用Model 2,通过针对80%的人口实现的增量销售比针对整体实现的增量销售额更多;这是因为最后两个十分位数的负面影响。如果重点是收入或价值,而不是转换,则会修改纵轴,以显示累计增量销售价值的估计值,而不是数量。在给定成本和价值信息的情况下,我们可以确定每个模型的最佳截止点,并选择能带来最高预测活动利润的模型。图2是通过应用成本和价值信息直接从增量收益曲线中得出的,如图所示,每1%的人口的治疗成本设定为1000美元,每次增量销售的利润贡献设定为150美元。使用这些数字,我们可以更进一步地说,Model 2更好,因为它允许我们提供更高的(估计的)整体营销利润(约70000美元,60%,而Model 1的最高利润略高于60000美元,40%),如果这是目标的话。13由于模型1在小容量下比模型2表现更好,而模型2在更高的目标容量下比模式1表现更好(差距更大),我们可以借用多目标优化中的优势概念(Louis&Rawl-ins,1993),并说两种模型都不主导另一种(即在所有截止点上都不好)。
尽管观察到不同的模型在不同的目标量下可能表现优于其他模型,但访问汇总所有可能的目标量的性能的指标是有用的。Qini措施(Radcliffe,2007)做到了这一点,在介绍了几点之后,我们将在下面概述它们。

4.1基于分段与逐点抬高估计:不可加性抬高建模的核心复杂性在于,我们无法测量个人的抬高,因为我们无法同时治疗和不治疗一个人。出于这个原因,在比较个人层面的实际结果和观察到的结果的基础上制定任何有用的质量衡量标准似乎注定要失败。
      然而,在给定有效的治疗控制结构的情况下,我们可以估计不同片段的提升,前提是我们在每个治疗和控制中都有等效的亚群,并且这些亚群足够大,有意义。这包括按模型得分划分的人群的情况。因此,我们可以通过比较治疗人群和对照人群中得分在100-200范围内的客户的购买率来估计得分在100-100范围内的顾客的提升。
       然而,在走这条路的过程中,我们需要意识到,隆起估计通常不是相加的(见表1)。这是因为在任意细分市场中,接受治疗和控制的客户的精确比例不可避免地会发生变化。14

4.2基尼系数基尼系数基于增量收益曲线下的面积(如图1)。这是基尼系数的自然推广,基尼系数虽然更常见地参考接收算子特性(ROC)曲线下的面积来定义,但可以等效地参考传统增益曲线来定义。由于增量收益曲线与基尼系数密切相关,我们倾向于参考图2:

表1:隆起不可加性的说明。在该表中,列为人口规模(n)、销售额(#销售额)和购买人口比例(%比率)。两个分段的隆起估计的加权平均值(在这种情况下,与未加权平均值相同)为0.497个百分点,不等于总人口的直接隆起估计值(0.500个百分点)。这不是四舍五入误差的结果。该图显示了使用图1中的模型在不同目标交易量下实现的利润,假设增量销售可带来150美元的净利润贡献,而目标交易的每1%成本为1000美元。对于Model 1,利润最大化是以40%的人口为目标,产生680个增量销售额和62000美元的整体活动利润,而对于Model 2,最佳目标销量是60%,产生870个增量销售额,70500美元的活动利润。

增量增益图上的曲线为qini曲线。Radcliffe(2007)详细讨论了Qini曲线和Qini测度,但主要特征包括:
1.基尼。基尼系数被定义为两个面积的比率。分子是实际增益曲线和对应于随机目标的对角线之间的区域。分母是相同的面积,但现在是最佳增益曲线。该最优增益曲线是通过一个模型实现的,该模型将更高的分数分配给所有响应者,而不是任何非响应者,并导致三角形增益曲线,在开始时斜率为1,在所有购买者都“用完”后斜率为0。因此,基尼系数的范围从+1(对于正确地将所有购买者排在所有非购买者之前的模型)到0(对于执行与随机目标相同(总体)的模型),再到-1(对于最坏可能的模型,将每个非购买者排在全部购买者之前)。


2.q0-基尼的直接类似物。由于负效应的可能性,16即使对于二元响应变量,最优增量增益曲线也不太明显,尽管可以直接计算(细节见Radcliffe,2007)。然而,我们通常不会将其用于qini度量的缩放,部分原因是这种理论最优值通常比任何可实现的值都大一个数量级或更多,部分原因在于它没有很好地定义为非二元结果。相反,我们通常根据所谓的零下降时间进行缩放,如果假设没有负面影响,这是最佳增益曲线。该版本的qini系数由q0表示,并定义为对角线上方的实际增量增益曲线的面积与零下降增量增益曲线之比。然而,应该注意的是,如果整体抬升为零,则零下举qini曲线的面积也将为零,从而导致q0的无限结果。


3.Q——更普遍的基尼系数。尽管对于二元结果,q0度量是基尼系数的一个有用的直接类似物,但更普遍有用的度量是未缩放的基尼系数Q。这被简单地定义为所讨论的实际增量增益曲线和随机目标对应的对角线之间的面积。这只是为了消除对种群大小N的依赖,必要时除以N2。


4.计算问题和不可加性。上调估计并不是严格意义上的附加估计。因此,一些计算基尼系数的方法比其他方法更容易受到统计变化的影响(见Surry&Radcliffe,2011)。

4.3成功标准和目标

        qini指标是我们目前对整体模型性能最具体、最直接的衡量标准,但我们需要进一步讨论提升模型“好”意味着什么。

        使用传统模型,我们可以根据模型构建过程中使用的数据和验证数据,逐点直接将模型的预测与实际结果进行比较。隆起模型没有等效的过程。
我们可以直接比较模型对不同亚群体的预测。qini测量做到了这一点,亚群体部分由预测本身定义,即我们从最高分数到最低分数。就我们如何定义分段而言,必然存在一定程度的任意性,但这不是一个大问题。
       和基尼系数一样,基尼系数只是模型执行的秩排序的一个测度。对于许多目的来说,这是足够的,特别是在需要处理的固定体积相对较小的情况下,并且该模型仅用于选择最佳候选者。
       然而,出于某些目的,校准很重要,尤其是在选取截止点时,即有时路段的预测隆起与实际隆起之间的实际对应关系很重要。
即使在分段水平上预测的完美准确性也不能保证模型的实用性,因为隆起预测可能是任意弱的。例如,我们可以定义一组随机片段,并预测每个片段的人口平均上升。我们希望我们无用的预测和现实之间有很好的对应性17,但该模型对使用毫无帮助,因为它没有做出有趣的预测。因此,我们不仅需要细分市场层面的准确预测,还需要一系列不同的预测,以便模型具有任何效用。
一般来说,在评估隆起模型时,我们会考虑以下所有因素:

•验证的qini(即比较两个模型,通常首选验证数据qini较高的模型);18
•增量收益的单调性:对于相当大的分段,我们希望每个分段都比前一个分段具有更低的隆起(从高预测隆起到低预测隆起);
•最大影响:在存在负面影响的情况下,我们考虑到我们可以实现的最高预测提升,特别是当增量收益具有稳定、单调的模式时;
•截止点的影响:有时,截止点是预先确定的,或由基于预测的利润计算确定的:在这些情况下,我们当然会关注截止点的表现。
•严格验证:与传统模型一样,当验证数据中看到的模式与用于构建模型的数据中的模式非常相似时,我们更有信心(尽管与测量隆起相关的固有较大误差意味着验证很少像传统模型那样严格)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值