预测类模型根据被解释变量的度量类型,分为对连续变量建模的回归,对分类变量建模的分类器,其中以二分类器为主。这里的回归不是仅有线性回归,还有回归决策树、回归神经网络,甚至最近邻域(KNN)和支持向量机(SVM)也可以做回归,不过商业中后两者并不常用。
而大家常听到的逻辑回归属于分类模型,不属于回归,这个名称的问题是统计学和机器学习的学科差异造成的。
分类器算法也很多,其中最主要的是二分类器。至于多分类器,由于其统计学中的功(power)比较低(指犯第二类统计错误的概率较高,用白话说就是模型不靠谱),因此多用作示意讲解,很少直接用于做预测。实际工作中把多分类问题转化为多个二分类模型来实现。
人类在日常生活中会遇到形形色色的分类问题。比如小孩在识物时,父母与老师都会耐心地拿着图片告诉小孩这是苹果,那是梨子,可以通过形状、颜色对它们加以区分。
人类在进行分类识别时,是根据已知的经验,加上归纳,形成一套事物的分类规则,这样就能够比较容易辨识与推断陌生的事物了。分类器的工作机制与人类对事物进行分类的过程非常类似,它根据已知类别的样本形成规则,然后对未知类别样本进行分类。
常见的分类器包括Logistic回归、分类决策树、神经网络、支持向量机、朴素贝叶斯等。
以下我们重点讲解二分类器。基于训练样本的规则,分类器可以对未知分类的数据进行分类预测,根据业务场景以及模型原理的不同,可以将二分类器分为两类:
1. 排序类分类器(业内称为评分卡模型)
这种分类器在进行预测时,输出的结果是类别的概率。对应到实际业务场景中,即难以以一个普适的标准定义研究目标的类别,换言之,目标的类别不能被稳定地辨识。
例如,在汽车违约贷款模型中,客户逾期多长时间不还款能被定义为违约?在客户营销响应模型中,营销多长时间后客户产生购买行为被定义为响应?在客户流失预测模型中,客户多久不产生业务往来算是流失?
这种问题使用排序类分类器较合理,因为这种分类器可以表示事物发生的可能或倾向性。排序类分类器的常见方法包括Logistic回归、决策树、神经网络等。
排序模型一个重要的特征是对行为结果建模。行为是内心决策的外部表现,理性的人在做一项决定时需要考虑效用(心理上的满足感或实际的收益)与成本。
比如客户营销响应模型中,客户付出的成本是产品的价格,一般而言所有客户面临的价格是统一的,而客户的效用各有不同,只有客户认为其购买的产品带来的效用高于成本,才会购买。
由于需要待建模的事件有这个明显特点,因此排序模型建模的全流程都体现出被研究对象(排序模型只研究有思维能力的人或动物,不研究事物的反应)对成本与效用这对矛盾的权衡。
比如信用模型中由于客户贷款后的效用是给定的(客户拿到贷款一万元,则其收益就是一万),而每个人的违约成本不一样,其中收入稳定性、社会关系丰富程度都是直接反映客户违约成本的变量,比如客户通信录中经常通信的联系人越多,代表其社会关系越丰富,越不会因为一万元不还而藏匿起来,失去其社会关系。
排序类模型往往会融入到商业决策中,是对客户倾向性高低的一个度量工具。这类问题的商业需求不是为了精确预测被研究个体实际上是否一定购买或违约的真实结果,因为这里就不存在这个真实结果的统一定义,而需要的是一个准确的排序能力。
这类模型对变量要求很高,而对算法要求不高,Logistic回归和决策树由于可解释性强,便于商业理解并形成策略,因此被广泛使用。神经网络模型一般用于评估数据的可用性。
这里需要强调一下,不是可以出预测概率的算法都适用于排序模型,比如SVM模型也可以出概率,但是该算法的强项是做分类,在预测概率方面并不擅长。
2. 决策类分类器
这种分类器进行分类预测时将会输出准确的类别而非类别的概率。对应到实际的业务场景中,即研究目标的类别是有普遍标准的,能够被清晰辨识。
例如,在客户交易欺诈类模型中,交易欺诈是一种被法律定义的违法行为,一旦满足既定标准,客户的行为就会被定义为欺诈;在图像识别中,识别结果也是一个可以被明确定义的类别。决策类分类器的常见方法有贝叶斯网络、最近领域(KNN算法)、SVM、深度学习等。
排序类算法适用于被解释变量是人为定义的情况,比如信用评分、流失预测、营销响应。决策类算法适用于被解释变量是客观存在的、非人为定义的,比如交易欺诈(欺诈属于犯罪行为,只要花时间追查,总是有最终定论的)、人脸识别、声音识别等。分类器如图1-1所示。
预测类模型评估概述
根据以上讲解的回归、二分类器,不同的算法选择不同的评估指标。主要指标见表1-1。
其中决策类模型主要关注于二分类的准确性等指标,排序类模型关心对倾向性排序的一致性。回归模型关心的是预测值与实际值之间的差异。以上是预测类模型评估的简介。
以上内容来源于Python大本营,版权归作者所有。
拓展阅读: