论文笔记自用: 从训练数据集和测试实例学习贝叶斯网络分类器的判别结构

数据集:WBC数据集(威斯康星洲乳腺癌数据库)

相关概念

MI :mutual information 交互信息

CMI :conditional mutual information 条件交互信息

MI 和 CMI 的定义是对训练数据中包含的属性之间的平均依赖性的度量

通过比较CMI(SCMI)和SCMI(Xi)= ∑ j I(Xi; Xj | C)(Xi 不等于 Xj)的总和来对属性进行排序。将具有最大SCMI顺序的前k个属性选择为Xp。为了控制结构的复杂性,UKDB还要求Xi从表2中所示的Xi中选择最多k个父对象。
在这里插入图片描述

在这里插入图片描述

LMI:local mutual information 局部互信息

CLMI :conditional local mutual information 条件局部互信息

LMI 和 CLMI 可以权衡每个实例所牵涉的属性值之间的直接依赖关系和条件依赖关系。

对于贝叶斯推断,
LMI指的是在观察到Xi = xi后,LMI可以用来测量Xi和C之间相互依赖的期望值。
在考虑变量C的所有可能值时,可以使用CLMI权衡属性值xi和xj之间的条件依赖性。

目标学习将每个测试实例P = {x1,…,xn,c =?}作为目标,并尝试挖掘这些属性值之间的依赖关系。对于实例p,我们有以下等式
在这里插入图片描述

BNC: Bayesian network classifier 贝叶斯网络分类器

BNC是BN的特殊类型。通过应用不同的学习策略,BNC对预测属性X = {X1,···,Xn}与类别变量C之间的依赖关系进行编码

UKDB: unrestricted k-dependence Bayesian classifier 无限制k相关贝叶斯分类器

领域知识 :它表示从训练数据中学到的通用知识框架,它着重于描述属性之间的相互依赖性,例如属性A1和B1。

个性化知识 :表示从测试实例中的属性值(例如属性A1 = a1和B1 = b1)中学习到的特定知识框架

我们提出了一种新颖的排序策略,并根据马尔可夫覆盖分析和目标学习,将KDB从单个受限网络扩展到了不受限制的集成网络,即不受限制的k依赖贝叶斯分类器(UKDB)。目标学习[16]是一个框架,该框架将每个未标记的测试实例P作为目标,并构建特定的贝叶斯模型BNCP来补充从训练数据T中学习的BNCT。

UKDB模型 :

使用马尔可夫链和针对性学习来建立两个不受限制的BNC的集合,即UKDBt和UKDBp。UKDB通过应用汇总机制来使用从训练集和测试实例中学到的知识。

1) UKDBt和UKDBp

UKDBt是从训练数据T中学到的,可以将其视为一系列依存关系,并且是领域知识的统计形式。在训练阶段,UKDBt通过计算MI和CMI来描述与训练数据T相关的全局条件依赖性。

UKDBp是一个特定的BNC,用于挖掘与每个单个测试实例P有关的个性化知识,即描述每个单个测试实例P中的属性值之间的条件依赖性的特定知识。在分类阶段,UKDBp通过计算LMI和CLMI,描述了与未标记测试实例P有关的局部条件依赖性。

UKDBP和UKDBT应用相同的策略来构建网络结构,但是它们应用不同的概率分布并针对不同的数据空间,因此它们本质上是互补的

3 UKDB 算法

由于测试实例P的类别标签是未知的,因此我们可以从训练集T中获得所有可能的类别标签。

假设对于每个c∈{c1,…,cm},类别c中的测试实例P的概率为1 / m,则将存在m个“伪”实例。

通过将这m个“伪”实例添加到训练集T中,我们可以使用公式(14)估计任意属性值对之间的联合或条件概率,从而达到从测试实例P学习条件独立性的目的。

在这里插入图片描述

在这里插入图片描述
“?”表示数据集中的缺失值

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

UKDBp和UKDBt的权重在本文中,在没有任何先验知识的情况下,使用均匀加权平均值,因此最终的概率估计为

在这里插入图片描述

4 Results and Discussion

在这里插入图片描述

1) 评价标准

zero-one损失、F1、ROC固化(Receiver Operating Characteristics 接收器工作特性)

机器学习中,零一损失是评估分类性能的标准措施之一。零一损失的偏差方差分解可以帮助分析训练模型的预期泛化误差。实现偏差方差的折衷是监督学习中的关键问题。
零一损失可以衡量分类器正确识别 未标记实例的类标签 的程度

给定M个测试实例,可以按以下方式计算零一损失函数:
在这里插入图片描述
其中ci和ci^分别是第i个实例的真实类别标签和预测标签

F1 ,在处理高度失衡的数据集时,“积极”类别与“消极”类别的比例非常低,F1分数可以帮助判断分类器是否倾向于偏向多数类别。 F1分数定义如下:
在这里插入图片描述
其中TP等于已正确分类的阳性实例的数量,FP和FN等于已被错误分类的阳性实例的数量和已被错误分类的阴性实例的数量。

ROC , 通过在各种阈值设置下将正阳性率(TPR)相对于假阳性率(FPR)作图来创建ROC曲线
TPR在机器学习中也称为敏感性或回忆性。 FPR也称为错误警报的后果或可能性,可以将其计算为(1-特异性),其中特异性是真实阴性率(TNR)。涉及的所有公式定义如下
在这里插入图片描述

处理数据缺失问题:对于训练数据,定性属性的缺失值被替换为modes(模式??),而定量属性的缺失值被替换为训练数据中的均值,对于测试数据,UKDBp选择不考虑与缺失值相关的依赖关系。

处理数据集不平衡问题 : 欠采样和过采样。本文选用过采样方法,在数据集的预处理阶段,在少数类实例集合中添加一组随机选择的少数实例,并通过复制所选实例并将其添加到原始实例中来扩充原始集合。这样,少数类实例集中的实例总数增加了,并且相应地调整了类分配平衡。

总结实验结果: Win / Draw / Loss ,每个表中的cell[i,j] 表示 第i行的BNC算法比第j列的算法表现更好(win),同等(draw)或更差(loss)的数据集 的数量,win即zero-one损失值更小,分类性能更好

在以下实验中,如果单尾二项式符号检验的结果小于0.05,则我们认为差异显着。

2) 模型评价

1)基于WBC数据集的文献中各种算法的比较:使用20轮10倍交叉验证

2)在10个数据集上比较KDB(k = 1),KDB(k = 2),UKDB(k = 1)和UKDB(k = 2)

3)验证缺失值的影响

选择没有缺失值的数据集,手动并随机删除每个实例中5%的属性值,比较UKDB(k = 2)在原始数据集上的结果和在有缺失值数据集上的结果

4)用于衡量变量之间相关性强度的准则效应

我们提出的算法UKDB使用MI和CMI(或LMI和CLMI)来测量属性之间的依赖强度。
实际上,UKDB可以使用其他准则。由于UKDB的效率取决于MI和CMI的效率,因此我们使用另一个标准,即 逐点共有信息(PMI)逐点条件共有信息(PCMI) 进行比较,并显示出MI和CMI在哪些情况下(或更少) )高效。
与MI和CMI相比,PMI和PCMI指单个事件,而MI和CMI指所有可能事件的平均值

比较UKDB (k = 2) with {MI, CMI} 和 UKDB (k = 2) with {PMI, PCMI}的 Win/Draw/Loss(结果表明前者出错率更低) 、time(效率)、零一损失

5)UKDB vs. NB, TAN and KDB on 10 datasets: ROC曲线、Win/Draw/Loss、Friedman test(弗里德曼检验)

6)UKDB vs. ETAN:Win/Draw/Loss、Friedman test(弗里德曼检验)

7)附录:上述比较的详细零一损失结果,10倍交叉验证的平均零一损失、平均偏差,最低者为优。

5 总结

在本文中,我们建议通过应用马尔可夫链将KDB从受限BNC扩展到非受限BNC。最终分类器称为UKDB,它具有较高的表现力,增强的鲁棒性和紧密的耦合性,展示了更好的分类性能。对于每个测试实例P,使用与训练数据T相同的学习策略,构建适当的局部贝叶斯分类器UKDBp。与其他最新的BNC相比,UKDB的新颖之处在于它可以使用从标记和未标记数据中提取的信息来做出联合决策。
从案例研究中可以看出,给定测试实例P1和P2,同一对属性值之间的依赖关系权重可能不同,这使得UKDBP1的拓扑结构与UKDBP2的拓扑结构有所区别。此外,该模型是直接从某个领域的数据中学习的,它只能表示领域知识的一部分,即数据集只是该领域的一部分,而统计知识可能与专家知识相反。某些挖掘出的知识与医学专家的知识不符,这需要对专家知识进行区分。因此,如果具备医学专业知识,UKDBP和UKDBT的网络结构将得到改善

考虑到实例数量的有限性,概率估计的准确性确定依赖关系的鲁棒性,然后确定BNC的结构复杂性。紧密耦合的特性有助于UKDB改进概率估计。 UKDB已与一些具有不同结构复杂性的最新BNC进行了实验比较。尽管KDB和UKDB具有相同的结构复杂性,但UKDB在分类准确性(零一损失)和鲁棒性(偏差和方差)方面显示出优于KDB的优越性。 NB的独立性假设很少适用于所有实例,但可能适用于特定实例。但是,诸如TAN,KDB和UKDB等高依赖性BNC专注于属性之间的相互依赖性,却忽略了属性值之间的独立性。如果可以测量和确定测试实例的独立性,则UKDBP可以提供更具竞争力的代表

当属性取特定值时,目标学习与依赖性评估有关。因为建议的UKDBp基于UKDB,所以它需要足够的数据来在结构学习期间学习准确的条件概率。因此,在实际应用中,对某些属性值(例如P(xi |Π,c))的条件概率的不正确估计可能会导致联合概率P(c,x)的估计中的噪声传播。在处理属性较少的数据集时,这种情况更加明显。因此,我们的进一步研究是确定为此目的所需的条件概率的适当估计,并寻求替代方法,例如拉普拉斯校正

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页