看了较多的关于粗糙集的参考文献后发现上面的定理和性质都比较的难以理解,也是因为这个重要原因让许多人对于数据挖掘和粗糙集望而却步,但是在我看来其实还是可以整理出一些比较通俗易懂的关于粗糙集的知识的:
1.
关于粗糙集的用途
粗糙集是用来处理不确定信息
不确定性按性质划分
:
1)
随机性
.
例
:
明天可能会下雨
2)
模糊性
:
模糊性就是一个命题中所出现的某些言词概念上无明确的内涵和外延。模糊现象是指边界不清楚,在质上没有确定性的含义,在量上没有确切界限的事物的一种客观属性,是事物之间的差异存在一定的中间过渡的结果
.
例
:
这孩子是个聪明的孩子
3)
不完全性
:
例
:
在炒股票中
.
4)
不一致性
:
相同原因产生不一样的结果
5)
时变性
:
随着时间会改变的事物
一些基本术语
论域:
数学定义是:
U={U1,U2,
…
,Um}
解释:所要处理的所有对象(在数据库中即是所有数据)的总和
例:例如,对于货票集合来说,其任意子集称为一个概念。根据运输距离对货票
进行分类,可以形成不同的概念:
概念
1
:运距在
500
公里
(含
500
公里
)以下的货票;
概念
2
:运距在
500
公里
-
1500
公里
(含
1500
公里
)间的货票;
概念
3
:运距在
1500
公里
以上的货票。
对于上例来说
U
就是货票集合,它由价格分成了
3
个概念即类(
U1,U2,U3
)
粗糙集理论建立在这样一个前提上:即所考虑的论域中的每一个对象都包含某种信息(数据和知识)。
条件属性集:
数学定义是:
P={P1,P2,
…
,Pm}
解释:就是对象的各种属性总和(也就是数据库中的字段)
Pm
就是这个对象的一个属性
基本集(基本粒度):
定义:所有不可区分的对象形成的集合
解释:可区分(可分辨):如果
Ui
≠
Uj
就称这两个对象在其条件
P
下是可区分的(对于两个不同的对象至少有一个属性是不同的)否则即为不可区分
例:
U
|
P
|
1
|
1
|
2
|
0
|
3
|
0
|
4
|
2
|
对于上表来说,
U
中有四个对象(概念),而现在条件集合中只有一个属性,对于
U1
和
U2
来说,它们的
p
不同所以可以通过
p
来区分,即
u1,u2
在
p
下可区分;而
U2
和
U3
虽然是不同的对象但是在
P
下却是相同的,即在
p
下不可区分,就成为不可区分
粗糙集:
一个集合若恰好等于基本集的任意并集称为一个清晰(crisp)集(精确集),否则称为粗糙(rough)集(不精确集)。
解释:都可区分的是清晰集,有不可区分的对象为粗糙集
小结
主要特点:以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力.
粗糙集体现了集合中元素间的不可区分性.
主要优势:它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其它不确定性问题的理论有很强的互补性.