《数据挖掘概念与技术》读书笔记(三)

六. 分类的基本概念

1. 决策树归纳:迭代的二分器,自顶向下递归分治构造决策树

属性选择度量(又称分裂规则)的方法:信息增益、增益率、基尼指数、最小描述长度(MDL)

1). 信息增益:原信息需求和新的信息需求之差, 它存在倾向于选择具有大量值的属性的偏倚。选择具有最高信息增益的属性作为结点N的分列属性。

2). 增益率: 用分裂信息将信息增益规范化,调整信息增益的偏倚,但它倾向于产生不平衡的划分。

3). 基尼指数:度量数据分区或训练元组集的不纯度。

4). 最小描述长度(MDL):具有最小偏向多值属性的偏倚。

 

树剪枝:先剪枝、后剪枝

先剪枝:提前停止树的构建。构造树时,使用信息增益、基尼指数等度量来评估划分,如果划分一个节点的元组导致低于预定义阈值的划分,则停止该自己的进一步划分。

难点:选择适当的阈值困难。膏腴之地树的导致过分简化,低阈值可能使树简化太少。

 

后剪枝:由完全生长的树剪去子树。

CART使用代价复杂度剪枝算法:树的复杂度看做书中树叶节点的个数和树的错误率的函数。如果剪去节点N的子树导致较小的代价复杂度,则剪掉该子树。

C4.5使用悲观剪枝算法: 通过加上一个惩罚来调节从训练集中得到的错误率。

 

2. 朴素贝叶斯分类:基于后验概率的贝叶斯定理,假定类条件独立,即一个属性值对给定类的影响独立于其他属性的值

可能出现一个零概率值将消除其他后验概率的影响,可以使用拉普拉斯校准,即假定训练数据库很大,以至于对每个计数加1造成的估计概率的变化忽略不计。

 

3. 模型评估与选择

分类器性能的度量:精度、召回率,混淆矩阵

精度:标记为正类的元组实际为正类所占的百分比

召回率:完全性的度量,即正元组标记为正的百分比

分类器的构造和评估:保持、随机抽样、交叉验证、自助法

保持: 2/3的数据作为训练集,1/3的数据作为检验集。使用训练集导出模型,其准确率用检验集估计。

 

随机抽样:保持的一种变形,将保持重复k次,总准确率估计去每次迭代准确率的平均值。

 

交叉验证:将数据划分成k个互不相交的大小大致相等的子集。训练和检验进行k次,第i次分区i作为检验集,其余分区作为训练集。

 

自助法:从元组中有放回的均匀抽样d次,产生d个样本的训练集,其余作为检验集。最常用的是.632自助法。

 

4. 提高分类准确率的技术

使用组合分类器方法: 装袋、提升、随机森林

装袋(自助聚集):对元组集采取有放回抽样,迭代产生多个训练集,有每个训练集学习得到一个分类器。对一个未知元组分类,每个分类器返回其类预测,算作一票,装袋分类器统计得票返回得票最高的类。

 

提升:迭代地学习k个分类器,学习得到的分类器i后,更新权重,使其后的分类器(i+1)更加关注i分类器误分类的训练元组。

 

Adaboost:一种提升算法,其基本思想是当建立分类器时, 希望它更关注上一轮误分类的元组。

步骤:初始赋予每个训练元组相等的权重,使用有放回抽样,每个元组被选中的机会由它的权重决定。如果元组不正确的分类,则增加其权重,否则减少权重。使用这些权重为下一轮的分类器产生训练样本。

某些分类器对某些困难元组分类可能比其他分类器好,可以建立一个互补的分类器系列。

分类器错误率越低,其准确率越高,则它的表决权重就应当越大。

 

随机森林:可以使用装袋和随机属性选择结合来构建,也可使用输入属性的随机线性组合。

随机森林在每次划分时只考虑很少的属性。

 

提高类不平衡数据的分类准确率:过抽样,欠抽样,阈值移动,组合技术

过抽样:对正元组重复抽样,使得训练集中包含相同个数的正元组和负元组。

欠抽样:减少负元组的数量,随机删除负元组,是正负元组数相同。

阈值移动:对给定输入元组返回一个连续输出值的分类器。

 

 

七. 高级分类方法

1. 贝叶斯信念网络

不假定类条件独立性,由有向无环图和条件概率表的集合定义。

有向无环图的每个节点代表一个随机变量,每条弧表示一个概率依赖。对于每个变量有一个条件概率表。

训练新年网络的方法:有专家或数据导出网络拓扑,并给定一个初始的随机概率权重值,梯度下降策略执行贪心的爬山法,在每次迭代中,算法向当时看上去是最优解的方向移动而不回溯。每次迭代都更新权重,最终收敛于一个局部最优解。

 

2. 用向后传播分类:一种神经网络学习算法

前馈的:其权重都不回送到输入单元或前一层的输出单元

全连接的:每个单元都向下一层的每个单元提供输入。

网络拓扑:输入层的单元数、隐藏层数、每个隐藏层的单元数、输出层的单元数

后向传播:由输出层,经由每个隐藏层,到第一个隐藏层。通过迭代地处理训练元组数据集,吧每个元组的预测和实际已知目标值比较进行学习,后向修改权重使得网络预测与实际值均方误差最小。

过程包括:初始化权重、向前传播输入、向后传播误差。

 

3. 支持向量机(SVM)

用一种非线性映射,把原训练数据映射到较高的维上,在新的维上,搜索最佳分离超平面。

数据线性可分情况:找出支持向量和MMH(最大边缘超平面),学习后的分类器的复杂度由支持向量数刻画。

数据非线性可分情况:扩展线性SVM得到非线性S VM:用非线性映射把原数据变换到高维空间,然后再信的空间搜索分离超平面。

 

4. 使用频繁模式分类

基本思想:搜索频繁模式与类标号件的强关联,在构建分类模型时,频繁模式充当组合特征。

关联分类: CBA、CMAR、CPAR

CBA(基于分类的关联): 使用一种启发式方法构造分类器,规则按照它们的置信度和支持度递减优先级排序。在对新元组分类时,使用满足该元组的第一个规则对其分类。构成分类器的规则集合形成一个决策表。

CMAR(基于多关联规则的分类): 使用加权的卡方度量,根据组中规则的统计相关性找出最强的规则组,把待归类元组指派为最强的组。

CPAR(基于预测关联规则的分类): 基于FOIL的分类规则产生算法。每当产生一个规则,就删除他满足的正样本,直到数据集合中的所有正元组都被覆盖。

 

5. 惰性学习法(近邻学习):基于实例的学习法

基本思想:当给定一个训练元组,惰性学习法简单的存储它,并一直等待直到给定一个检验元组,才进行发话,根据与存储的训练元组的相似性对该元组进行分类。

1). k-最近邻分类

基于类比学习,通过将给定的检验元组与和它相似的训练元组进行比较学习,每个元组代表n维空间中的一点。近邻性用距离度量,包括欧几里得距离、曼哈顿距离。

加快分类速度技术:部分距离计算、编辑存储。

 

6. 其他分类方法:不常用于商品化数据挖掘系统中

遗传算法:创建随机产生的规则组成的初始群体,新群体由当前群体中最适合的规则集这些规则的后代组成。后代由交叉和变异操作产生。继续产生新规则群体的过程,知道群体中每个规则都满足预定的拟合度阈值。

交叉:规则对的子串交换产生新规则对

变异:规则串中随机选择的位被反转。

 

粗糙集方法:发现不准确数据或噪声数据内的结构联系。由两个集合来近似:下近似和上近似。

下近似:根据元组属性,该元组毫无疑问术语类C。

上近似:根据元组属性,该元组不可能被认为不属于C。

 

模糊集方法:

基本思想:考虑到基于规则的分类系统对于连续属性都有陡峭的截断,模糊集中元素可以属于多个模糊集,但具有不同的隶属度。比如收入为49000美元可以同属medium和high模糊集,其隶属值之和不必等于1.

 

半监督分类:自我训练、协同训练

自我训练:先使用有标号数据建立分类器,然后对无标号数据加标号,将类标号预测最有把握的元组添加到数据集合中,重复这个过程。

协同训练:两个分类器互教互学,1号分类器预测得到的最有把握的元组添加到2号有标号的数据集中,2号同理。

 

主动学习:一种迭代的监督学习,适合数据丰富丹类标号稀缺的情况。

基本思想:使用尽可能少的有标号实例来获得高准确率。

过程:以一个有类标号集合作为初始训练集开始学习,使用一个查询函数从中精心挑选少量样本并通过注释者获取其类标号,添加到有类标号中,重复该过程。这种方法大部分时间集中在如何选择被询问的元组上。

 

迁移学习:

基本思想是运用一项任务的知识使得另一项任务的学习更容易。

TrAdaBoost算法是迁移学习方法的一个典范。其基本思想是通过自动调整赋予训练元组的权重,过滤掉与新数据很不相同的老数据的影响。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值