mutual information feature selection, MIFS:互信息特征选择
Smymetrical uncertainty, SU
Fast Correlation-Basd Filter Solution, FCBF:基于相关性快速过滤的特征选择算法
Conditional Mutual Information Maximization, CMIM:条件互信息最大化
Joint Mutual Information Maximiza, JMIM:联合互信息最大化
Normalized Joint Mutual Information Maximiza, NJMIM:归一化联合互信息最大化
Feature Interaction Maximization, FIM:特征交互最大化
Interaction-weight-based Feature Selection Algorithm, IWFS:基于交互权重的特征选择算法
Max-relevance and max-interaction, MRMI:最大相关性最大交互性(准则)
摘要:特征选择的目的是在数据挖掘、模式识别和机器学习中选择能够提高学习性能的重要特征。过滤器特征选择方法提供了计算效率和特征评价标准,而特征交互信息可以大大提高分类精度,但它往往被忽略。在这项工作中,我们提出了一种新的特征选择算法,是呀“最大最大”准则来选择高度相关的特征和它们最大限度的交互特征。在30个UCI数据集上进行了大量的实验,以评估所提出方法在特征选择数量和分类精度上的性能。结果表明,该算法不仅能有效选择相关特征和交互特征,而且能使分类器获得比10中具有代表性的竞争特征选择算大更好或较好的分类精度。
1 Introduction
在数据挖掘、机器学习、自然语言处理和人脸识别等许多实际应用中,特征选择已经被理论和经验证明是一种非常有用的方法。它通常被认为是分类和聚类学习的预处理步骤。特征选择的主要目标是选择一个能够携带原始特征全部信息近似值的最优子集。换句话说就是保留相关特征,去除冗余特征,从而简化学习模型,减少训练时间,降低学习错误率。
特征选择的研究大多集中在特征质量评估和搜索策略方面。特征质量评估是特征选择的关键问题之一,常用于从原始子集中选择相关特征。从评价标准的角度来看,特征选择方法一般可以分为两类:过滤器方法和包装器方法。由于分类器的独立性,过滤器方法简单而有效。它们选择能最大化目标函数或特征评价标准的最佳特征子集。比较常见的是使用度量方法如距离、相关性和一致性来评估候选子集的质量。距离通常被认为是可分性、发散性或依赖性的度量方法。相关性通常被用来描述特征和类标签之间的相关性。一致性被视为可以用来评估分类特征质量的样本比率。而包装器方法根据学习算法的结果来选择特征。虽然包装器模型的算法更精确,但它们通常是计算密集型的,特别是在处理超高维数据时。一般来说,过滤器方法比包装器方法更快,且前者的鲁棒性使得它可以很容地应用于高维数据中。因此,文章将关注过滤器方法。
普遍来说,现有的过滤器特征选择方法通过选择相关特征及其交互特征,去除不相关和冗余特征。相关特征对学习算法是非常有用的,但不相关和冗余特征没有提供有用的甚至提供负面的信息,这可能会混淆学习算法,破坏学习和挖掘性能。最近许多文章详细介绍了特征质量的评估。众所周知,信息论被用来确定特征的质量。除了哪些常见的评价指标如熵、信息增益,交互信息是经常被忽视但很重要的指标。虽然交互特征个体与类别无关,但它们可以极大地提高分类的准确性。一个经典的案例是XOR(异或)问题,两个特征中都单独与类标签无关,但两者结合时,它们都与类标签密切相关。在这种情况下,使用它们可以比使用单独特征 的分类器获得更好的分类性能。
近年来,许多研究都集中在度量特征的交互作用,,但大多研究都是基于包装器模型或者加入特征排序的过滤器模型。因此,使用过滤器模型研究特征交互仍然是一项具有挑战性的任务。文章提出了一种基于相关性的交互式特征选择方法。我们首先直接处理了特征的相关性、冗余性和交互性,然后提出了一种基于度量特征相关性和交互性的特征选择算法。
2 Background theory
信息熵
3 Related work
给定一个数据集D,包含m个离散特征和类。 是一个完整的特征集合,且 是维度 的候选特征集。特征选择的关键是选择可以产生相同甚至更好的分类精度的特征子集 ,即识别与类标签相关但与其他特征都冗余的特征。
实际上,利用过滤器模型进行各种选择可以看作是一个搜索问题。在预定义的特征质量评价标准下,搜索一个或多个相关特征。信息论被应用于许多特征选择算法中,许多研究者把重点放在了基于信息的度量方法上。
MIFS是Battiti(1944)提出的一种算法,它使用互信息索引,通过贪婪搜索算法从全部特征中选择最相关的k个特征。MIFS的目标就是最大化下面函数,其中 用来选择相关特征,原来确定冗余特征:
2002年Kwak和Choi在MIFS的基础上改进冗余索引,提出了MIFS-U,它的目标函数定义为:
2014年Hoque、Bhattacharyya和Kalita提出一种结合特征间交互信息和特征与类标签间交互信息的 贪心特征选择方法,以找到一个最小化冗余性最大化相关性的最优子集。其目标函数定义为:
2005年由Peng、Long和Ding提出的另一个MIFD的扩展,mRMR,用来选择与目标类相关性最好冗余度最低的特征。目标函数如下:
最近基于mRMR的扩展研究越来越多,它们通过度量特征的相关性和冗余度来选择特征。这些方法尝试利用互信息索引来识别相关特征和冗余特征,但存在局限性:(1)它们没有完全去除冗余特征;(2)在贪婪搜索策略性,计算代价较高;(3)没有考虑特征交互。
为解决上述前两个问题已经做出了各种努力。如Yu和liu(2004)提出的FCBF方法,通过SU确定特征的相关性和冗余度。FCBF选择优势特征,通过马尔科夫毯策略搜索算法去除高度相关的特征:
文献中也介绍了其它指标类似的方法(如条件互信息和联合互信息)。Fleuret(2004)引入CMIM准则进行特征选择。CMIM公示如下:
因为CMIM可以隐式识别特征间的联合相关性,所以采用CMIM来度量特征间的相关性和冗余度。Bennasar、Hicks和Setchi(2015)提出了JMIM和NJMIM准则,采用联合互信息和最小极值法来选择最相关的特征。目标函数定义为:
在交互问题上,越来越多研究者通过对特征交互信息的研究来提高分类精度和识别冗余互补特征。据我们所知,三向交互信息最早由Jakulin(2003,2005)明确引入。Zhao和Liu(2007,2009)提出了三向交互的扩展,并提出了一种基于SU和一致性贡献的向后消除过滤器交互算法。一致性贡献是指特征的消除对一致性的影响有多大。该算法包括两部分:第一部分根据SU值对特征降序排列;第二部分逐一评估已排序的特征。如果某个特征的一致性贡献小于预定义的阈值,则删除该特征;否则被选中。实验结果表明这个方法能够有效处理特征交互问题以及识别相关特征。
此外,Bennasar、Setchi和Hicks(2013)介绍了一种新的特征选择方法FIM,它使用三向交互信息度量特征冗余度。这个方法采用最小最大准则,使用如下目标函数评估候选特征的相关性和冗余度:
2015年Zeng、Zhang、Zhang和Yin提出一种新的考虑特征交互的特征选择方法。作者首先在信息论的框架下重新定义了特征相关性、特征冗余度和特征交互,然后介绍了IWFS,该算法能够反映出特征是冗余的还是交互的。两个随机特征间的交互权重因子定义为:
虽然FIM和IWFS都在监督学习中考虑了特征交互,但它们都是通过特征排序的方法来选择特征子集,不能按照自己的标准结束。事实上,基于无监督学习的研究很少。在这个背景下,Ng、Pham和Jia(2012)开发了一种新的框架,在模糊度量和Choquet积分的基础上将特征交互的重要性纳入子空间聚类中,成为FISC。考虑到特征间的相互作用,FISC可以有效的识别最优特征子集(子空间),提高分类结果。
总体来说,大多数的方法都是通过最大化交互信息来考虑特征交互,且经常采用贪心搜索算法。基于这些原因,它们在计算上很费时。因此制定更好的搜索标准和有效的搜索策略是很有必要的。
4 Proposed method for feature selection
文章提出一种新的考虑特征相关性、冗余度和交互的特征选择方法。这个算法的目标是基于马尔科夫毯选择相关和交互特征并去除尽可能多的冗余特征。
在过去十几年里,许多研究集中在特征相关性和冗余度的定义。文章将采用以下定义。
定义1:特征相关性,当且仅当
特征 为相关的,否则为不相关。
定义2:马尔科夫毯,给定一个特征 ,使 ,当且仅当
为特征 的马尔科夫毯。马尔科夫毯的条件要求了 不仅包含特征 关于 的信息,还要包含其他所有特征的信息。
定义3:特征冗余,如果特征 在当前特征集合中有一个马尔科夫毯 ,则特征 对于其他特征来说是冗余的。
关于类标签的特征相关和冗余的定义依赖于概率分布。因此,很容易从整个特征集中识别出相关的以及冗余的特征。然而,要删除一个与类标签相关性弱或不相关但与其它选定的特征交互的特征并不容易。
大多数研究者认为真正的交互特征之间可能是互补的,当它们一起使用时,可以极大地提高分类精度。因此特征交互对于特征选择非常重要。 Jakulin(2005)指出三向交互信息可以区分真假交互:真交互产生正交互信息,假交互产生负交互信息,非交互特征对的交互信息大多接近于0。基于此,我们给出特征交互的定义。
定义4:特征交互,当且仅当
我们说特征 和特征 是交互的。定义4表示 特征 和特征 的交互作用越强,它们结合在一起的信息越多。即缺少特征对 会降低分类结果。
4.1 Max-relevance and max-interaction criterion
大多数研究的关键思想是用最小最大标准选择特征时尽力优化相关性和冗余度之间的关系。然而,相关性和冗余度不能识别交互特征。文章提出一种新的准则MRMI,目标是提高相关性和交互性分析以及最大最大准则来选择最相关的特征及其最大的交互性特征。MRMI准则定义为:
等式右边的第一项度量了特征 对类标签的相关性,第二项用来识别与特征 弱冗余强相关的最大交互特征 。这个标准具有选择协同特征的优势,因此能够促进分类性能。
如上图韦恩图展示了候选特征 、选择 特征 和类标签 C 之间不同情况下的关系。(a)和(b)中交互信息 (区域r3)即特征 和特征 之间的协同作用为正,然而这两个特征本身没有什么作用。显然交互作用的两种情况要么是正要么是负,当 和 一起使用时,(a)提供的信息要比(b)更多。相关性和冗余的关系很直接:如果 ,那么 和 可以给类标签 C 提供更多的信息。相反则它们可以被认为是彼此的冗余特征。因此MRMI应该满足条件: 并且 非常高。
4.2 Proposed feature selection algorithm
信息论中使用的大多数特征选择算法很少同时处理相关性、冗余性和交互性。文章利用MRMI准则来识别相关和交互特征,并利用马尔科夫毯去除冗余特征。具体步骤如下。
MRMI是一种没有额外预定义参数的典型过滤器特征选择算法。当候选特征子集中没有更多的特征可以被选择时就停止。算法MRMI的主要计算包括两部分:对于预计算步骤,我们需要计算m个特征与类标签之间的SU,即当有m个特征时时间复杂度为;对于特征选择步骤,我们需要计算候选子集的交互 ,因此最坏的情况是没有特征被去除的时候时间复杂度为;所以最坏情况下总的时间复杂度为。
5 Experiment
5.1 Experimental setup
对比算法:FCFB、Consistency、mRMR、INTERACT、CFS、Relief-F、CMIM、JMIM、IWFS、IG。除Consistency外,其余算法都基于信息论;CFS、FCBF和mRMR通过识别相关特征去除冗余特征来选择最优特征集,INTERACT、CMIM、JMIM和IWFS用于处理特征交互。这些算法中,mRMR、Relief-F、CMIM、JMIM、IWFS和IG通过排序选择特征,其余算法根据自己的标准结束。
5.2 Empirical result
评价标准:(1)如果特征选择方法能够获得比其他方法更大的分类精度,则其性能优于其他方法;(2)如果两个或两个以上的特征选择算法产生相似的分类精度,使用最少的特征数量达到这种精度的算法是最好的,因为它可以实现更简单的模型和更有效的分类。
5.2.1 Performance comparison of CFS, Consistency, FCBF, and INTERACT
5.2.2 Performance comparison of mRMR, Relief-F, CMIM, JMIM,IWfS and IG
6 Conclusions and future work
未来:N交互