《数据挖掘与数据化运营实战》(第4-7章)

在这里插入图片描述

4 数据化运营是跨专业、跨团队的协调与合作

在线运营团队需具有的与数据相关的基本技能要求:

  • 提出业务分析需求并且能胜任基本的数据分析
  • 提供业务经验和参考建议
  • 策划和执行精细化运营方案
  • 跟踪运营效果、反馈和总结

6 数据挖掘项目完整应用案例演示

项目流程:

  1. 项目背景和业务分析需求的提出
  2. 数据分析师参与需求讨论
  3. 制定需求分析框架和分析计划
  4. 抽取样本数据、熟悉数据、数据清洗和摸底
  5. 按计划初步搭建挖掘模型
  6. 与业务方讨论模型的初步结论,提出新的思路和模型优化方案
  7. 按优化方案重新抽取样本并建模,提炼结论并验证模型
  8. 完成分析报告和落地应用建议
  9. 制定具体的落地应用方案和评估方案
  10. 业务方实施落地应用方案并跟踪、评估结果
  11. 落地应用方案在实际效果评估后,不断修正完善
  12. 不同运营方案的评估、总结和反馈
  13. 项目应用后的总结和反思

7 数据挖掘建模的优化和限度

7.1 数据挖掘模型的优化要遵循有效、适度的原则

在模型优化和资源投入之间,在投入数据分析资源和满足特定业务需求之间,又有一个微妙的平衡点——性价比,这个平衡点决定了模型的优化和完善是有限度的。

任何一个数据挖掘模型都是针对一个特定业务需求的,围绕着一个具体的业务需求,数据挖掘模型总是可以有办法不断完善、不断提升,即提升精确度、提升转化率等。

  • 有效原则:模型的结论或者应用效果是否满足当初业务需求,还需要考虑时效性
  • 适度原则:投入产出性价比

7.2 如何有效地优化模型

7.2.1 从业务思路上优化

从业务思路上优化模型是最重要的模型优化措施。可从以下几个层面进行考虑:

  • 有没有更加明显且直观的规则、指标可以代替复杂的建模
  • 有没有一些明显的业务逻辑(业务假设)在前期的建模阶段被疏忽
  • 通过前期的初步建模和数据熟悉,是否有新的发现,甚至能颠覆之前的业务推测或者业务直觉
  • 目标变量的定义是否稳定(在不同的时间点抽样验证)
7.2.2 从建模的技术思路上优化

建模的总体技术思路包括不同的建模算法、不同的抽样方法、有没有必要通过细分群体来分别建模等。

  • 建模算法:预测响应(或分类)模型思路里的不同算法——逻辑回归算法、决策树算法、神经网络算法、支持向量机算法等。基本统计分析方法。
  • 抽样方法:是否抽样、如何抽样、过抽样。
  • 细分群体:细分建模有时候会通过故意漏掉一小部分目标用户,从而可以针对剩下的绝大多数目标用户进行更有效的预测。
7.2.3 从建模的技术技巧上优化

在建模过程中,业务思路上的优化比建模技术思路上的优化更重要,而建模技术思路上的优化又比单纯的建模技巧的优化更重要。

7.3 模型效果评价的主要指标体系(二元目标变量)

7.3.1 评价模型准确度和精度的系列指标
  • True Positive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象数量
  • True Negative(TN):指模型预测为负(0)的,并且实际上也的确是正(0)的观察对象数量
  • False Positive(FP):指模型预测为正(1)的,并且实际上是负(0)的观察对象数量
  • False Negative(FN):指模型预测为负(0)的,并且实际上是正(1)的观察对象数量

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.3.2 ROC曲线

ROC曲线是一种有效比较两个二元分类模型的可视工具,它显示了给定模型的灵敏性真正率和假正率之间的比较评定。真正率的增加是以假正率的增加为代价的,ROC曲线下面的面积就是比较模型准确度的指标和依据,面积大的模型对应的模型准确度要高,也就是要择优应用的模型,面积越接近0.5,对应的模型的准确率就越低。

要绘制ROC曲线,首先要对模型所做的判断即对于的数据做排序,把经过模型判断后的观察值预测为正(1)的概率从高到低进行排序,ROC曲线的纵轴表示真正率,ROC曲线的横轴表示假正率。具体绘制时,从左下角开始,此时真正率和假正率都为0,按照刚才概率从高到低的顺序,依次针对每个观察值实际的“正”或“负”绘制,如果它是真正的“正”(预测正确),则ROC曲线向上移动并绘制一个点;如果它是真正的“负”,则ROC曲线向右移动一个点。
在这里插入图片描述

7.3.3 KS值

如果KS值越大,表示模型能够将正(1)、负(0)客户区分开来的程度越大,模型预测的准确率也越高。通常来讲,KS大于0.2就表示模型有较好的预测准确性了。

KS曲线绘制步骤如下:

  1. 将测试集里所有观察对象经过模型打分预测为正(1)的对象按概率从高到低排序。
  2. 分别计算每个概率分数所对应的实际上为正(1)、负(0)的观察对象累计值,以及它们分别占全体总数,实际正(1)、负(0)的总数量的百分比。
  3. 将这两种累计的百分比与评分分数绘制在同一张图上,得到KS曲线,如下图:
    在这里插入图片描述
  4. 各分数对应下的累计的、真正的正(1)观察对象的百分比与累计的、真正的负(0)观察对象的百分比之差的最大值就是KS值。
7.3.4 lift值

在二元预测模型在具体的业务场景中,都有一个random rate,所谓random rate,是指在不使用模型的时候,基于已有业务效果的正比例,也就是不使用模型之前“正”的实际观察对象在总体观察对象中的占比。如果经过建模,有一个不错的模型,那么这个模型就可以比较有效地锁定群体了,所谓有效,是指在预测概率的数值从高到低的排序中,排名靠前的观察值中,真正的“正”观察值在累计的总观察值里的占比应该是高于random rate的。
在这里插入图片描述
在这里插入图片描述
从上述lift公式中,引出了在模型评估中常用的两个评价指标,分别是响应率(%response)和捕获率(%captured response)。首先要把经过模型预测后为正(1)的观察对象按照预测概率从高到低排序,然后对这些观察对象按照均等的数量划分为10个区间,每个区间里观察对象的数量一致,这样各个区间可以被命名为排序最高的前10%的对象排序最高的前20%对象等。

  • 响应率是指按上述概率分数排序后的某区间段或累计区间观察对象中,实际属于正(1)的观察对象占该区间或该累计区间总体观察对象数量的百分比。很明显,响应率越高说明该区间预测准确率越高。
  • 捕获率是指上述排序区间的观察对象中,实际属于正(1)的观察对象占全体观察对象中属于正(1)的总数的百分比,同样是越高越好。
7.3.5 模型稳定性的评估

考察稳定性最好的办法就是抽取另外一个时间段(时间窗口)的数据,最好是最新时间的数据,通过模型对这些新的数据、新对象进行预测(打分),然后与实际情况进行比较,并且跟模型在测试集和验证集里的表现相比较,看模型是否稳定,其效果衰减的幅度是否可以接受。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终端)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终端设备、电子元器件、射频前端、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值