3.预测模型介绍:从相关关系到监督性分类
基本概念:识别信息性丰富的属性;用递进属性选择分割数据
主要技巧:找到相关性;属性/变量选择;回归树
模型,回归,和预测
监督分割
选择属性
例子:用信息增益选择属性
用树模型进行监督分割
分割可视化
一系列规则的树
概率估计
例子:用树归纳解决客户流失问题
总结
第三章 预测模型入门:从相关性到监督分割
基本概念:识别有用属性;用筛选过的属性进行数据分割
主要技巧:寻找相关性;属性/变量选择;树归纳
信息是关于减少某件事情不确定性的量。
有用的属性就是能够帮我们减少目标量的不确定性属性。
仅仅是找到与目标量相关的属性,就能够给业务问题提供重要洞见。
筛选有用属性还能减小运算负荷。
模型,归纳和预测
模型是为了某一目的对现实的简化呈现。
预测:通常意义是预测未来一个事件;数据科学中是预测未知量,它可以是现在过去或未来的。
信息增益==不确定性减少
用熵(entropy)计算信息增益
克劳德.香农——信息论
信息熵的概念: