数据挖掘的主要技术

本文深入探讨了数据挖掘的主要技术,包括决策树的构造、优点与常见算法如CHAID、CART;神经网络的分类与预测功能,以及其与人脑的相似性;回归分析的类型及其应用;还有支持向量机、贝叶斯分类等。这些技术在数据挖掘中起着关键作用,帮助我们理解和预测复杂数据模式。
摘要由CSDN通过智能技术生成
  • 决策树—分类、预测

什么是决策树?
决策树是一种非常普遍的数据挖掘技术,顾名思义,决策树就是建模过程类似于一棵树的成长过程,从树根、树干、分支,分叉,最后到树叶,在决策树里,所分析的数据样本,先集成为一个树根,然后进行层层的分支,最后形成一个个的节点,每个节点代表一个结论

决策树的优点有哪些?
1.决策树的优点在于决策树的构造不需要任何领域的知识,很适合探索性的数据挖掘发现,而且可以处理高纬度的数据
2.决策树最大的优点在于,它所生成的一系列的从树根到树叶的规则,很容易被分析师所理解,甚至不需要经过专门的处理,可以直接应用的业务优化策略和业务优化路径
3.决策树对数据的分布甚至缺失非常宽容,不容易受到极值的影响

常用的决策树算法有哪些?
常用的决策树算法主要有CHAID、CART、ID3、C4.5、C5.0等
CHAID:卡方自动相互关系检验
什么是卡方检验?
卡方检验是假设检验的一种,即统计样本中实际观测值与理论观测值的偏离程度,偏离程度决定卡方值的大小,卡方值越大,误差越大,越不符合,卡方值越小,误差越小,越符合,如果卡方值为0,则完全符合

CHAID主要是依据局部最优原则(节点直接互不相关),然后利用卡方检验来选择对因变量最有影响的自变量,同时CHAID应用的一个前提是,因变量为类别型变量(依据类别划分的变量,比如男、女)

CART:分类与回归树
1.CART的分割逻辑与CHAID相同, 每一层的划分都是基于自变量的检验和选择上,但是CHAID采用的是卡方检验,而CART采用的是基尼系数
2.CART与CHAID之间最大的不同,CHAID采用的是局部最优的原则,节点之间互不相干,而CART则是着眼于全局优化,即先让树尽可能的成长,然后再返回来进行修剪,有些类似于统计分析中的反向选择
3.CART生产的决策树是二分的,即所有的节点都只能分出两个枝
4.CART在树的成长过程中,同一个自变量可以被多次的使用(分割)
5.同时,如果自变量存在数据缺失的情况,CART会找一个替代数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值