《数据挖掘与数据化运营实战》(第4-7章)
4 数据化运营是跨专业、跨团队的协调与合作
在线运营团队需具有的与数据相关的基本技能要求:
- 提出业务分析需求并且能胜任基本的数据分析
- 提供业务经验和参考建议
- 策划和执行精细化运营方案
- 跟踪运营效果、反馈和总结
6 数据挖掘项目完整应用案例演示
项目流程:
- 项目背景和业务分析需求的提出
- 数据分析师参与需求讨论
- 制定需求分析框架和分析计划
- 抽取样本数据、熟悉数据、数据清洗和摸底
- 按计划初步搭建挖掘模型
- 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
- 按优化方案重新抽取样本并建模,提炼结论并验证模型
- 完成分析报告和落地应用建议
- 制定具体的落地应用方案和评估方案
- 业务方实施落地应用方案并跟踪、评估结果
- 落地应用方案在实际效果评估后,不断修正完善
- 不同运营方案的评估、总结和反馈
- 项目应用后的总结和反思
7 数据挖掘建模的优化和限度
7.1 数据挖掘模型的优化要遵循有效、适度的原则
在模型优化和资源投入之间,在投入数据分析资源和满足特定业务需求之间,又有一个微妙的平衡点——性价比,这个平衡点决定了模型的优化和完善是有限度的。
任何一个数据挖掘模型都是针对一个特定业务需求的,围绕着一个具体的业务需求,数据挖掘模型总是可以有办法不断完善、不断提升,即提升精确度、提升转化率等。
- 有效原则:模型的结论或者应用效果是否满足当初业务需求,还需要考虑时效性
- 适度原则:投入产出性价比
7.2 如何有效地优化模型
7.2.1 从业务思路上优化
从业务思路上优化模型是最重要的模型优化措施。可从以下几个层面进行考虑:
- 有没有更加明显且直观的规则、指标可以代替复杂的建模
- 有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽
- 通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或者业务直觉
- 目标变量的定义是否稳定(在不同的时间点抽样验证)
7.2.2 从建模的技术思路上优化
建模的总体技术思路包括不同的建模算法、不同的抽样方法、有没有必要通过细分群体来分别建模等。
- 建模算法:预测响应(或分类)模型思路里的不同算法——逻辑回归算法、决策树算法、神经网络算法、支持向量机算法等。基本统计分析方法。
- 抽样方法:是否抽样、如何抽样、过抽样。
- 细分群体:细分建模有时候会通过故意漏掉一小部分目标用户,从而可以针对剩下的绝大多数目标用户进行更有效的预测。
7.2.3 从建模的技术技巧上优化
在建模过程中,业务思路上的优化比建模技术思路上的优化更重要,而建模技术思路上的优化又比单纯的建模技巧的优化更重要。
7.3 模型效果评价的主要指标体系(二元目标变量)
7.3.1 评价模型准确度和精度的系列指标
- True Positive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象数量
- True Negative(TN):指模型预测为负(0)的,并且实际上也的确是正(0)的观察对象数量
- False Positive(FP):指模型预测为正(1)的,并且实际上是负(0)的观察对象数量
- False Negative(FN):指模型预测为负(0)的,并且实际上是正(1)的观察对象数量
7.3.2 ROC曲线
ROC曲线是一种有效比较两个二元分类模型的可视工具,它显示了给定模型的灵敏性真正率和假正率之间的比较评定。真正率的增加是以假正率的增加为代价的,ROC曲线下面的面积就是比较模型准确度的指标和依据,面积大的模型对应的模型准确度要高,也就是要择优应用的模型,面积越接近0.5,对应的模型的准确率就越低。
要绘制ROC曲线,首先要对模型所做的判断即对于的数据做排序,把经过模型判断后的观察值预测为正(1)的概率从高到低进行排序,ROC曲线的纵轴表示真正率,ROC曲线的横轴表示假正率。具体绘制时,从左下角开始,此时真正率和假正率都为0,按照刚才概率从高到低的顺序,依次针对每个观察值实际的“正”或“负”绘制,如果它是真正的“正”(预测正确),则ROC曲线向上移动并绘制一个点;如果它是真正的“负”,则ROC曲线向右移动一个点。
7.3.3 KS值
如果KS值越大,表示模型能够将正(1)、负(0)客户区分开来的程度越大,模型预测的准确率也越高。通常来讲,KS大于0.2就表示模型有较好的预测准确性了。
KS曲线绘制步骤如下:
- 将测试集里所有观察对象经过模型打分预测为正(1)的对象按概率从高到低排序。
- 分别计算每个概率分数所对应的实际上为正(1)、负(0)的观察对象累计值,以及它们分别占全体总数,实际正(1)、负(0)的总数量的百分比。
- 将这两种累计的百分比与评分分数绘制在同一张图上,得到KS曲线,如下图:
- 各分数对应下的累计的、真正的正(1)观察对象的百分比与累计的、真正的负(0)观察对象的百分比之差的最大值就是KS值。
7.3.4 lift值
在二元预测模型在具体的业务场景中,都有一个random rate,所谓random rate,是指在不使用模型的时候,基于已有业务效果的正比例,也就是不使用模型之前“正”的实际观察对象在总体观察对象中的占比。如果经过建模,有一个不错的模型,那么这个模型就可以比较有效地锁定群体了,所谓有效,是指在预测概率的数值从高到低的排序中,排名靠前的观察值中,真正的“正”观察值在累计的总观察值里的占比应该是高于random rate的。
从上述lift公式中,引出了在模型评估中常用的两个评价指标,分别是响应率(%response)和捕获率(%captured response)。首先要把经过模型预测后为正(1)的观察对象按照预测概率从高到低排序,然后对这些观察对象按照均等的数量划分为10个区间,每个区间里观察对象的数量一致,这样各个区间可以被命名为排序最高的前10%的对象排序最高的前20%对象等。
- 响应率是指按上述概率分数排序后的某区间段或累计区间观察对象中,实际属于正(1)的观察对象占该区间或该累计区间总体观察对象数量的百分比。很明显,响应率越高说明该区间预测准确率越高。
- 捕获率是指上述排序区间的观察对象中,实际属于正(1)的观察对象占全体观察对象中属于正(1)的总数的百分比,同样是越高越好。
7.3.5 模型稳定性的评估
考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新的数据、新对象进行预测(打分),然后与实际情况进行比较,并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受。