学习笔记 Data Science for Business 第三章 《预测建模:从关联到监督式分段》

本章深入探讨预测建模,以电信公司的客户流失预测为例,阐述如何通过监督式分段将客户数据进行有效区分。介绍了如何选择最具信息量的变量,利用熵和信息增益概念进行特征选择,并通过树结构模型进行表示。同时,章节涵盖了概率估计和防止过度拟合的方法,如拉普拉斯校正。
摘要由CSDN通过智能技术生成

Introduction to predictive modelling: from correlation to supervised segmentation 预测建模:从关联到监督式分段

上一章谈到了数据挖掘的概念,以及建模的一般性流程等概念。本章要深入讨论数据挖掘的一个主要的课题:预测建模。本章继续沿用了“电信公司MegaTelCo的客户流失的预测”这个例子来讲解如何从众多的客户数据当中,将那些没有流失的客户与流失的客户分段(segementation)。通过对已有数据的分段,我们可以知道未来某个客户是否会流失,如果有可能会流失,我们就能够采取措施来争取留住这个客户。同样的分析办法可以用在信用卡违约或者信贷违约等具体的商业应用中。

在介绍监督式分段的过程中,作者介绍了数据挖掘的一个最基本的工作内容:如何挑选出“信息含量”最高的特征或变量(variable)来对众多的数据进行分段。

模型、归纳以及预测

本节首先介绍了何谓“模型”,以地图、建筑师的设计蓝图来介绍模型的作用。在“数据科学”领域,一个预测性的模型是用来对感兴趣的未知变量(目标变量)的值进行预测。本节介绍了一些基本的数据库和统计学的概念,如“特征矢量”,“样本空间”,“实例”等。

监督式分段

1. 挑选“信息含量高的”变量

这里作者引入了“熵”的概念。用熵来定义某个数据集的“混乱”程度。以债务违约的预测为例,在一个数据集中,有违约的客户,也有不违约的客户。每个客户都具有唯一的一组特征矢量。这样,根据某个特征来对数据集中的客户进行分段

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值