数据挖掘的主要技术_chaid采用的是局部最优原则及节点之间互不相干cart着眼于总体优化每个决策节-CSDN博客

本文链接：https://blog.csdn.net/ymf827311945/article/details/77574396

本文深入探讨了数据挖掘的主要技术，包括决策树的构造、优点与常见算法如CHAID、CART；神经网络的分类与预测功能，以及其与人脑的相似性；回归分析的类型及其应用；还有支持向量机、贝叶斯分类等。这些技术在数据挖掘中起着关键作用，帮助我们理解和预测复杂数据模式。

摘要由CSDN通过智能技术生成

决策树—分类、预测

什么是决策树？
决策树是一种非常普遍的数据挖掘技术，顾名思义，决策树就是建模过程类似于一棵树的成长过程，从树根、树干、分支，分叉，最后到树叶，在决策树里，所分析的数据样本，先集成为一个树根，然后进行层层的分支，最后形成一个个的节点，每个节点代表一个结论

决策树的优点有哪些？
1.决策树的优点在于决策树的构造不需要任何领域的知识，很适合探索性的数据挖掘发现，而且可以处理高纬度的数据
2.决策树最大的优点在于，它所生成的一系列的从树根到树叶的规则，很容易被分析师所理解，甚至不需要经过专门的处理，可以直接应用的业务优化策略和业务优化路径
3.决策树对数据的分布甚至缺失非常宽容，不容易受到极值的影响

常用的决策树算法有哪些？
常用的决策树算法主要有CHAID、CART、ID3、C4.5、C5.0等
CHAID：卡方自动相互关系检验
什么是卡方检验？
卡方检验是假设检验的一种，即统计样本中实际观测值与理论观测值的偏离程度，偏离程度决定卡方值的大小，卡方值越大，误差越大，越不符合，卡方值越小，误差越小，越符合，如果卡方值为0，则完全符合

CHAID主要是依据局部最优原则（节点直接互不相关），然后利用卡方检验来选择对因变量最有影响的自变量，同时CHAID应用的一个前提是，因变量为类别型变量（依据类别划分的变量，比如男、女）

CART：分类与回归树
1.CART的分割逻辑与CHAID相同，每一层的划分都是基于自变量的检验和选择上，但是CHAID采用的是卡方检验，而CART采用的是基尼系数
2.CART与CHAID之间最大的不同，CHAID采用的是局部最优的原则，节点之间互不相干，而CART则是着眼于全局优化，即先让树尽可能的成长，然后再返回来进行修剪，有些类似于统计分析中的反向选择
3.CART生产的决策树是二分的，即所有的节点都只能分出两个枝
4.CART在树的成长过程中，同一个自变量可以被多次的使用（分割）
5.同时，如果自变量存在数据缺失的情况，CART会找一个替代数据