进入网络信息时代,随着计算机技术和网络技术的飞速发展,使得各个行业
领域的信息急剧增加,如何从大量的、杂乱无章的数据中发现潜在的、有价值的、简洁的知识呢?数据挖掘(Data Mining)和知识发现(KDD)技术应运而生。
粗糙集理论作为一种数据分析处理理论,在1982年由波兰科学家Z.Pawlak创立[1]。最开始由于语言的问题,该理论创立之初只有东欧国家的一些学者研究和应用它,后来才受到国际上数学界和计算机界的重视。1991年,Pawlak出版了《粗糙集—关于数据推理的理论》这本专著,从此粗糙集理论及其应用的研究进入了一个新的阶段,1992年关于粗糙集理论的第一届国际学术会议在波兰召开。1995年ACM将粗糙集理论列为新兴的计算机科学的研究课题。
粗糙集理论作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备的信息有效的工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论)。
目前,粗糙集理论的研究方向主要是三个方面:
理论上,①利用抽象代数来研究粗糙集代数空间这种特殊的代数结构[2~7]。②利用拓扑学描述粗糙空间[8]。③还有就是研究粗糙集理论和其他软计算方法或者人工智能的方法相接合,例如和模糊理论、神经网络、支持向量机、遗传算法等[9~19]。④针对经典粗糙集理论框架的局限性,拓宽粗糙集理论的框架,将建立在等价关系的经典粗糙集理论拓展到相似关系甚至一般关系上的粗糙集理论[20~23]。
应用上,粗糙集理论在许多领域得到了应用,①临床医疗诊断[24~26];②电力系统和其他工业过程故障诊断[27~34];③预测与控制[35~37];④模式识别与分类[38~47, 61];⑤机器学习和数据挖掘[48~52]; ⑥图像处理[53~56];⑦其他[57~60]。
算法上,一方面研究了粗糙集理论属性约简算法和规则提取启发式算法,例如基于属性重要性、基于信息度量的启发式算法[20~23, 62~64],另一方面研究和其他智能算法的结合,比如:和神经网络的结合,利用粗糙集理论进行数据预处理,以提高神经网络收敛速度[9, 13, 36];和支持向量机SVM结合[12, 65];和遗传算法结合;特别是和模糊理论结合,取得许多丰硕的成果[10, 14~20, 23],粗糙理论理论和模糊理论虽然两者都是描述集合的不确定性的理论,但是模糊理论侧重的是描述集合内部元素的不确定性,而粗糙集理论侧重描述的是集合之间的不确定性,两者互不矛盾,互补性很强,是当前国内外研究的一个热点之一。
[1] Pawlak Z.Rough sets [J].International Journal of Information and Computer Science,1982,11(5):314~356.
[2] 祝峰,何华灿.粗集的公理化[J].计算机学报,2000,23(3):330~333.
[3] 陶鲜花,郝志峰.粗糙群的性质[J].计算机工程与应用,2002(10):221~225.
[4] 陶鲜花 郝志峰.粗糙群相容同态的性质[J].华南理工大学学报(自然科学版),2004,32(3):74~76.
[5] 于佳丽, 舒兰.粗糙商半群的性质[J].模糊系统与数学,2003,17 (4):25~27.
[6] 张燕平,张铃,吴涛.不同粒度世界的描述法—商空间法[J].计算机学报,2004,27(3):328~333.
[7] 张金玲,张振良.粗糙子群和粗糙子环[J].纯粹数学与应用数学,2004,20(1):92</