混合型数据的邻域条件互信息熵属性约简算法

混合型数据的邻域条件互信息熵属性约简算法


兰海波

中国气象局公共气象服务中心

 摘要属性约简是粗糙集理论的重要研究内容之一,其主要目的是消除信息系统中不相关的属性,降低数据维度并提高数据知识发现性能。然而,基于粗糙集的属性约简方法大多没有考虑属性之间的依赖性,使得最终的属性约简结果存在一定的冗余属性。对此,提出一种基于邻域条件互信息熵的属性约简算法。首先,在传统邻域熵的基础上,针对混合型数据,提出混合型邻域互信息熵模型和混合型邻域条件互信息熵模型;然后利用这两种熵模型进行混合型信息系统的属性依赖度评估和属性启发式搜索,并设计出一种属性约简算法;最后通过UCI数据集的实验分析,证明了提出的算法具有较高的属性约简性能。

关键词 粗糙集 ; 属性约简 ; 邻域 ; 互信息熵 ; 条件互信息熵

fed1e43937317e270724ec1a56659785.jpeg

论文引用格式:

兰海波. 混合型数据的邻域条件互信息熵属性约简算法[J]. 大数据, 2022, 8(4): 133-144.

LAN H B. Neighborhood conditional mutual information entropy attribute reduction algorithm for hybrid data[J]. Big Data Research, 2022, 8(4): 133-144.

ab90a52effb92e01896811a02914d6ea.jpeg

0 引言

在大数据应用情景下,具有噪声、无关或冗余特征的数据集对数据挖掘、知识发现和模式识别产生了巨大的挑战。如何从数据集所有属性中选择出最优属性子集是各种学习任务的重要研究课题。属性约简是粗糙集理论的重要研究分支,其主要目的是消除信息系统中不相关的属性,降低数据维度并提高数据知识发现性能。

基于粗糙集理论,学者们提出了多种属性约简算法。例如,Hu Q H等人基于邻域粗糙集,将邻域依赖度作为数值型信息系统的属性评估,提出一种属性约简算法;Pang Q Q等人提出一种基于邻域区分度的半监督属性约简算法;在Pang Q Q等人的基础上,Hu M等人在邻域粗糙集下提出权重邻域依赖度,并构造一种改进的属性约简算法;Shu W H等人对邻域粗糙集进行增量式构造,提出一种高效的增量式属性约简算法;盛魁等人对邻域区分度进行增量式构造,提出一种新的属性约简算法;姚晟等人将这些属性约简算法进一步拓展,提出非平衡数据下不完备混合型信息系统的属性约简算法。另外,部分学者采用其他类型的粗糙集模型进行属性约简算法的设计,例如,Wang C Z等人在模糊粗糙集下提出自信息,并进行属性约简算法的设计;Yuan Z等人利用模糊粗糙集提出混合型数据的非监督属性约简算法;栾雨雨等人利用混沌离散粒子群提出一种新的粗糙集属性约简算法;Hu M等人利用K近邻粗糙集模型提出一种新颖的属性约简算法;桑彬彬等人利用优势粗糙集构造出一种属性约简算法。

利用互信息熵进行属性约简近年来受到了学者们越来越多的关注。熊菊霞等人提出邻域互信息熵的混合型数据属性约简算法,陈帅等人提出邻域互补信息度量的属性约简算法,姚晟等人提出邻域互信息熵的非单调性属性约简算法。然而,这些属性约简算法大多没有考虑属性之间的相互作用,即在进行属性约简的搜索过程中,选择重要度高的属性作为候选属性,而没有考虑所选属性的独立性,新选择的属性与已有的属性可能存在一定的依赖关系,这使得最终的属性约简结果可能存在一定的冗余性。互信息熵与条件互信息熵是评估随机变量独立性的一种重要度量方法,本文将利用这两种度量方法提出一种新的属性约简算法。同时,实际应用环境下的数据集往往是数值型和离散型混合类型,例如对于医疗信息系统,患者的性别、听觉、视觉、嗅觉等都是离散型的属性,身高、体重和血液检查中各种酶的指标都是数值型的属性,因此本文将研究混合型信息系统下的属性约简问题。

首先,本文在邻域粗糙集模型的基础上,构造出混合型信息系统下的邻域信息熵模型,并进一步提出混合型邻域互信息熵模型和混合型邻域条件互信息熵模型;然后,将提出的混合型邻域互信息熵和混合型邻域条件互信息熵用于混合型信息系统属性之间的相关性度量;最后,将这两种熵度量作为启发式函数设计出一种属性约简算法,并通过6个UCI数据集的属性约简实验,证明了本文的属性约简算法通过考虑属性之间的依赖性可以提高约简结果的分类性能,同时本文算法也具有较小的属性约简耗时。

1 基本理论

将邻域信息系统 表示为二元组0e884943c1307e2daa0f3d8e103b5cb3.png,其中,44a3859614f15cb9da654c8ae233d48f.png是一个非空有限对象或样本的集合,称之为论域;71f1f5d0bde649fab142b244252880d9.png是一个非空有限属性或特征的集合,称之为属性全集,其包含两个部分,分别称之为条件属性集C 和决策属性集D。

在邻域信息系统da1755be8b2591c1137808ec38a3c318.png中,通常使用距离度量来评估信息系统中对象之间的相似性,对于属性子集c5cb7cc54b235f8d86f7b6f0cccb93b5.png,对象b8a568cde82b325cf5f33840f1bbcd52.png的距离度量一般被定义为:

d0823eed931cab614b24dd6f61201c7b.png

其中,ai(x)表示对象x在属性ai下的属性值,ai(y)表示对象 y在属性ai下的属性值,λ的取值范围一般为a3d7889c7605a7efb4a49507984cd1c2.png。基于该度量函数,可以在邻域信息系统下构造出邻域关系。

定义1:设邻域信息系统表示为39cce59a82b8742b945098b5d8e087a6.png,则属性子集62e1f20a912103554437dca692a76818.png确定的邻域关系如下。

b96cba75c2a802438f7fed3bf39a3407.png

其中,δ被称为邻域关系的邻域半径。邻域关系满足自反性和对称性,但不一定满足传递性。利用邻域关系可以得到邻域信息系统中每个对象的邻域类7c71286b4cd8964a8fe0381e61eb86cc.png

922f12208f35824b6cb7cbc1225240d4.png

定义2 :设邻域信息系统表示为78728b1f60527cf9ea170db266fdf2ed.png,属性子集

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值