有亿点点烧脑的粗糙集属性约简----2 基础知识

iQoMo

已于 2024-04-30 15:46:16 修改

阅读量356

点赞数 1

文章标签：机器学习

于 2021-09-14 20:56:57 首次发布

仅供学习参考！

本文链接：https://blog.csdn.net/weixin_44086522/article/details/120281951

版权

基础知识

1 邻域粗糙集的基础知识
2 模糊粗糙集的基础知识
3 小结
参考文献

1 邻域粗糙集的基础知识

设 $Ω$ 是 $N$ 维实值空间， $S=R^{N} \times R^{N} \rightarrow R$ ， $S$ 被称作是 $R^{N}$ 上的一个测度，如果满足以下条件：
(1) $S\left(x_{1}, x_{2}\right) \geq 0, \quad S\left(x_{1}, x_{2}\right)=0, 当且仅当 x_{1}=x_{2}, \quad \forall x_{1}, x_{2} \in R^{N}$ ；
(2) $S\left(x_{1}, x_{2}\right)=S\left(x_{2}, x_{1}\right), \quad \forall x_{1}, x_{2} \in R^{N}$ ；
(3) $S\left(x_{1}, x_{3}\right) \leq S\left(x_{1}, x_{2}\right)+S\left(x_{2}, x_{3}\right), \quad \forall x_{1}, x_{2}, x_{3} \in R^{N}$ .
$S$ 通常用作实数空间上的 Minkowski 距离函数： $S\left(x_{i}, x_{j}\right)=\left[\sum_{k=1}^{N}\left|x_{i k}-x_{j k}\right|^{p}\right]^{1 / p}$ .

定义 1.1 给定信息系统 $< U, A, V, f >$ , 其中 $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$ 是一组论域的有限集， $A$ 是一组非空数值型条件属性， $V$ 是所有属性的取值范围， $f$ 表示一个映射： $\times A \rightarrow V$ .

定义 1.2 给定信息系统 $\quad B \subseteq A$ ，邻域关系 $R_{B}^{\delta}$ 定义如下： $R_{B}^{\delta}=\left\{(x, y) \in U \times U:\left|f_{l}(x)-f_{l}(y)\right| \leq \delta, a_{l} \in B\right\}.$ 这里 $\delta$ 是用户事先指定的非负常数。

定义 1.3 给定信息系统 $\quad B \subseteq A$ ，对于任意 $\in U$ ，邻域类 $[x]_{B}^{\delta}$ 定义如下： $[x]_{B}^{\delta}=\left\{y \in U:(x, y) \in R_{B}^{\delta}\right\}.$

定义 1.4 设 $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$ 是对象集， $A=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是一组非空数值型条件属集， $\subseteq A, \quad R_{B}^{\delta}$ 是由 $B$ 诱导的邻域关系, 对于任意 $\subseteq U, X$ 的下近似和上近似定义如下： $\underline{R}_{B}^{\delta}(X)=\left\{x \in U:[x]_{B}^{\delta} \subseteq X\right\}, \quad \bar{R}_{B}^{\delta}(X)=\left\{x \in U:[x]_{B}^{\delta} \cap X \neq \varnothing\right\}.$

定义 1.5 给定决策信息系统 $< U, A, D > .$ 其中， $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}$ 是一组有限对象集， $A=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是一组非空数值型条件属性集，对象集 $U$ 被决策 $D$ 划分成 $r$ 个分明的决策类，即： $D=\left\{E_{1}, E_{2}, \cdots, E_{r}\right\}$ .

定义 1.6 给定决策表 $\subseteq A, U / D=\left\{E_{1}, E_{2}, \cdots, E_{r}\right\}, R_{B}^{\delta}$ 是由 $B$ 诱导的 $U$ 上的邻域关系，关于条件属性子集 $\quad D$ 的下近似和上近似定义如下： $\underline{R}_{B}^{\delta}(D)=\bigcup_{k=1}^{r} \underline{R}_{B}^{\delta}\left(E_{k}\right), \quad \bar{R}_{B}^{\delta}(D)=\bigcup_{k=1}^{r} \bar{R}_{B}^{\delta}\left(E_{k}\right).$ 其中， $\underline{R}_{B}^{\delta}\left(E_{k}\right)=\left\{x_{i} \mid\left[x_{i}\right]_{B}^{\delta} \subseteq E_{k}, x_{i} \in U\right\}, \quad \bar{R}_{B}^{\delta}\left(E_{k}\right)=\left\{x_{i} \mid\left[x_{i}\right]_{B}^{\delta} \cap E_{k} \neq \varnothing, x_{i} \in U\right\}.$

定义 1.7 给定决策表 $\subseteq A, U / D=\left\{E_{1}, E_{2}, \cdots, E_{r}\right\}, R_{B}^{\delta}$ 是由 $B$ 诱导的 $U$ 上的邻域关系，决策系统正域定义如下： $S_{B}^{\delta}(D)=\bigcup_{E_{k} \in U / Y} \underline{R}_{B}^{\delta}\left(E_{k}\right).$

定义 1.8 给定决策表 $\subseteq A, U / D=\left\{E_{1}, E_{2}, \cdots, E_{r}\right\}, R_{B}^{\delta}$ 是由 $B$ 诱导的 $U$ 上的邻域关系。关于条件属性子集 $B$ ，决策属性 $D$ 的依赖度定义如下： $\gamma_{B}^{\delta}(D)=\frac{\left|P O S_{B}^{\delta}(D)\right|}{|U|}.$
定义 1.8 通常被用作邻域粗糙集模型中特征选择经典的依赖函数。然而，这种依赖函数的缺点在于它的构建仅考虑正域中样本与论域样本的数量比。换句话说, 只有部分样本参与计算决策依赖度。实际上, 决策的上近似样本集也提供了一些不容忽视的信息, 这些信息也应参与决策依赖度的计算。

2 模糊粗糙集的基础知识

定义 2.1 设 $U$ 是一个样本空间，通常称之为论域。存在一个映射 $A(\cdot)$ 将论域映射在 $[0, 1]$ ，即： $A(\cdot): U \rightarrow[0,1]$ . 则 $A$ 被称为 $U$ 上的一个模糊集。对于任意 $\in U$ , $A (x)$ 表示 $x$ 到 $A$ 的隶属程度。 $U$ 上的所有模糊集族被称为模糊幂集, 记为： $F (U)$ . 则模糊隶属度函数的值域在 $[0, 1]$ , 即： $\leq A(x) \leq 1$ . 显然, 分明集是特殊的模糊集。

定义 2.2 给定样本空间 $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}, A$ 是用数值型属性值描述样本的属性集合, $R_{A}$ 是由数值型属性诱导的 $U$ 上的一个模糊二元关系，称 $R_{A}$ 是一个模糊相似关系，如果 $R_{A}$ 满足：
(1) 满足自反性： $\quad R_{A}(x, x)=1$ , 对于任意 $\in U$ ；
(2) 满足对称性： $\quad R_{A}(x, y)=R_{A}(y, x)$ , 对于任意 $\in U$ .

定义 2.3 对于任意 $\in U, x$ 关于 $R_{A}$ 的模糊相似类定义如下： $[x]_{A}(y)=R_{A}(x, y), \quad y \in U.$ 显然, 它是 $U$ 上的一个模糊集。当模糊相似关系退化为分明关系时, 模糊邻域也退化为分明的邻域。

定义 2.4 给定样本空间 $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}, A=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是一个实值属性集， $\subseteq A, R_{B}$ 是由 $B$ 诱导的 $U$ 上的一个模糊相似关系，对于任意模糊集合 $\in F(U)$ ， $X$ 的模糊下近似、上近似定义如下：
$\begin{gathered} \underline{R}_{B}(X)(x)=\inf _{y \in U} \max \left\{1-R_{B}(x, y), X(y)\right\}, \quad x \in U. \\ \overline{R_{B}}(X)(x)=\max _{y \in U} \inf \left\{R_{B}(x, y), X(y)\right\}, \quad x \in U. \end{gathered}$

定义 2.5 给定样本空间 $U=\left\{x_{1}, x_{2}, \cdots, x_{n}\right\}, A=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是一个实值属性集， $D$ 是一个决策属性，样本集 $U$ 被 $D$ 划分成 $r$ 个分明的等价类，即： $D=\left\{D_{1}, D_{2}, \cdots, D_{r}\right\}$ , 称 $(U, A, D)$ 为决策表。

定义 2.6 给定决策表 $\subseteq A, \quad U / D=\left\{D_{1}, D_{2}, \cdots, D_{r}\right\}, R_{B}$ 是由 $B$ 诱导的 $U$ 上的一个模糊相似关系，决策 $D$ 关于属性子集 $B$ 的模糊正域定义如下：
$\operatorname{POS}_{B}(D)(x)=\bigcup_{i=1}^{r} \underline{R}_{B}\left(D_{i}\right)(x), \quad x \in U.$ 定义 2.6 表明 $x$ 分配到确定决策等价类的程度是由 $POS_{B}(D)(x)$ 决定的。

定义 2.7 设 $A$ 是 $U$ 上的模糊集，对于任意 $\alpha \in[0,1]$ ，称 $A_{\alpha}$ 是模糊集 $A$ 的 $\alpha$ 水平截集，定义如下：
$A_{\alpha}=\{x \in U: A(x) \geq \alpha\}.$ 为了表示模糊集的不确定性, 下面引入了一对精度和粗糙度的概念。

定义 2.8 设 $(U, R)$ 是 Pawlak 近似空间, $\alpha, \beta \in[0,1]$ . $A$ 是 $U$ 上的模糊集，模糊集 $A$ 的精度和粗糙度定义如下：
$\alpha_{A}(\alpha, \beta)=\frac{\left|\underline{R}(A)_{\alpha}\right|}{\left|\bar{R}(A)_{\beta}\right|}, \quad \rho_{A}(\alpha, \beta)=1-\frac{\left|\underline{R}(A)_{\alpha}\right|}{\left|\bar{R}(A)_{\beta}\right|}.$ 假设当 $\bar{R}(A)_{\beta}=\varnothing$ 时，有 $\rho_{A}(\alpha, \beta)=0$ . 显然，当 $0<\beta \leq \alpha \leq 1$ 时，有 $\leq \alpha_{A}(\alpha, \beta) \leq 1$ , $\leq \rho_{A}(\alpha, \beta) \leq 1$ .
模糊集的粗糙度和精度是一对相对概念，用来描述模糊集的粗糙程度。
然而, 定义 2.8 的精度模型存在一个明显的缺点。从截集的定义中，只有一部分样本用于计算模糊集的精度。因此，定义 2.8 不能准确地反映模糊集的精度。后面将重新定义模糊集的精度和粗糙度, 并引入模糊自信息的概念来度量模糊集的不确定性。