《商业数据分析》读书笔记(三)

3.预测模型介绍:从相关关系到监督性分类

基本概念:识别信息性丰富的属性;用递进属性选择分割数据

主要技巧:找到相关性;属性/变量选择;回归树

模型,回归,和预测

监督分割

选择属性

例子:用信息增益选择属性

用树模型进行监督分割

分割可视化

一系列规则的树

概率估计

例子:用树归纳解决客户流失问题

总结

第三章 预测模型入门:从相关性到监督分割

基本概念:识别有用属性;用筛选过的属性进行数据分割

 

主要技巧:寻找相关性;属性/变量选择;树归纳

 

信息是关于减少某件事情不确定性的量。

有用的属性就是能够帮我们减少目标量的不确定性属性。

仅仅是找到与目标量相关的属性,就能够给业务问题提供重要洞见。

筛选有用属性还能减小运算负荷。

 

模型,归纳和预测

 

模型是为了某一目的对现实的简化呈现。

预测:通常意义是预测未来一个事件;数据科学中是预测未知量,它可以是现在过去或未来的。

 

信息增益==不确定性减少

 

用熵(entropy)计算信息增益

 

克劳德.香农——信息论

 

信息熵的概念:

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值