混合型数据的邻域条件互信息熵属性约简算法
兰海波
中国气象局公共气象服务中心
摘要:属性约简是粗糙集理论的重要研究内容之一,其主要目的是消除信息系统中不相关的属性,降低数据维度并提高数据知识发现性能。然而,基于粗糙集的属性约简方法大多没有考虑属性之间的依赖性,使得最终的属性约简结果存在一定的冗余属性。对此,提出一种基于邻域条件互信息熵的属性约简算法。首先,在传统邻域熵的基础上,针对混合型数据,提出混合型邻域互信息熵模型和混合型邻域条件互信息熵模型;然后利用这两种熵模型进行混合型信息系统的属性依赖度评估和属性启发式搜索,并设计出一种属性约简算法;最后通过UCI数据集的实验分析,证明了提出的算法具有较高的属性约简性能。
关键词: 粗糙集 ; 属性约简 ; 邻域 ; 互信息熵 ; 条件互信息熵
论文引用格式:
兰海波. 混合型数据的邻域条件互信息熵属性约简算法[J]. 大数据, 2022, 8(4): 133-144.
LAN H B. Neighborhood conditional mutual information entropy attribute reduction algorithm for hybrid data[J]. Big Data Research, 2022, 8(4): 133-144.
0 引言
在大数据应用情景下,具有噪声、无关或冗余特征的数据集对数据挖掘、知识发现和模式识别产生了巨大的挑战。如何从数据集所有属性中选择出最优属性子集是各种学习任务的重要研究课题。属性约简是粗糙集理论的重要研究分支,其主要目的是消除信息系统中不相关的属性,降低数据维度并提高数据知识发现性能。
基于粗糙集理论,学者们提出了多种属性约简算法。例如,Hu Q H等人基于邻域粗糙集,将邻域依赖度作为数值型信息系统的属性评估,提出一种属性约简算法;Pang Q Q等人提出一种基于邻域区分度的半监督属性约简算法;在Pang Q Q等人的基础上,Hu M等人在邻域粗糙集下提出权重邻域依赖度,并构造一种改进的属性约简算法;Shu W H等人对邻域粗糙集进行增量式构造,提出一种高效的增量式属性约简算法;盛魁等人对邻域区分度进行增量式构造,提出一种新的属性约简算法;姚晟等人将这些属性约简算法进一步拓展,提出非平衡数据下不完备混合型信息系统的属性约简算法。另外,部分学者采用其他类型的粗糙集模型进行属性约简算法的设计,例如,Wang C Z等人在模糊粗糙集下提出自信息,并进行属性约简算法的设计;Yuan Z等人利用模糊粗糙集提出混合型数据的非监督属性约简算法;栾雨雨等人利用混沌离散粒子群提出一种新的粗糙集属性约简算法;Hu M等人利用K近邻粗糙集模型提出一种新颖的属性约简算法;桑彬彬等人利用优势粗糙集构造出一种属性约简算法。
利用互信息熵进行属性约简近年来受到了学者们越来越多的关注。熊菊霞等人提出邻域互信息熵的混合型数据属性约简算法,陈帅等人提出邻域互补信息度量的属性约简算法,姚晟等人提出邻域互信息熵的非单调性属性约简算法。然而,这些属性约简算法大多没有考虑属性之间的相互作用,即在进行属性约简的搜索过程中,选择重要度高的属性作为候选属性,而没有考虑所选属性的独立性,新选择的属性与已有的属性可能存在一定的依赖关系,这使得最终的属性约简结果可能存在一定的冗余性。互信息熵与条件互信息熵是评估随机变量独立性的一种重要度量方法,本文将利用这两种度量方法提出一种新的属性约简算法。同时,实际应用环境下的数据集往往是数值型和离散型混合类型,例如对于医疗信息系统,患者的性别、听觉、视觉、嗅觉等都是离散型的属性,身高、体重和血液检查中各种酶的指标都是数值型的属性,因此本文将研究混合型信息系统下的属性约简问题。
首先,本文在邻域粗糙集模型的基础上,构造出混合型信息系统下的邻域信息熵模型,并进一步提出混合型邻域互信息熵模型和混合型邻域条件互信息熵模型;然后,将提出的混合型邻域互信息熵和混合型邻域条件互信息熵用于混合型信息系统属性之间的相关性度量;最后,将这两种熵度量作为启发式函数设计出一种属性约简算法,并通过6个UCI数据集的属性约简实验,证明了本文的属性约简算法通过考虑属性之间的依赖性可以提高约简结果的分类性能,同时本文算法也具有较小的属性约简耗时。
1 基本理论
将邻域信息系统 表示为二元组,其中,是一个非空有限对象或样本的集合,称之为论域;是一个非空有限属性或特征的集合,称之为属性全集,其包含两个部分,分别称之为条件属性集C 和决策属性集D。
在邻域信息系统中,通常使用距离度量来评估信息系统中对象之间的相似性,对于属性子集,对象的距离度量一般被定义为:
其中,ai(x)表示对象x在属性ai下的属性值,ai(y)表示对象 y在属性ai下的属性值,λ的取值范围一般为。基于该度量函数,可以在邻域信息系统下构造出邻域关系。
定义1:设邻域信息系统表示为,则属性子集确定的邻域关系如下。
其中,δ被称为邻域关系的邻域半径。邻域关系满足自反性和对称性,但不一定满足传递性。利用邻域关系可以得到邻域信息系统中每个对象的邻域类:
定义2 :设邻域信息系统表示为,属性子集