有亿点点烧脑的粗糙集属性约简----4 模糊自信息测度及其特征选择应用

iQoMo

已于 2024-04-30 15:47:44 修改

阅读量364

点赞数

文章标签：机器学习

于 2021-09-23 14:57:18 首次发布

仅供学习参考！

本文链接：https://blog.csdn.net/weixin_44086522/article/details/120431271

版权

模糊自信息测度及其特征选择应用

1 模糊自信息及相关性质
2 应用举例
3 小结
参考文献

模糊自信息可以表示信号的不确定性。将自信息的概念引出到模糊粗糙集模型中可以用来度量模糊决策的不确定性。

1 模糊自信息及相关性质

定义 1.1 测度 $I (x)$ 是由 Claude Shannon 提出的，表示信号 $x$ 的不确定性，称 $I (x)$ 是 $x$ 的自信息，如果满足如下条件:
(1) 非负性： $\geq 0$ ;
(2) 如果 $\rightarrow 0$ ，则有 $\rightarrow \infty$ ;
(3) 如果 $p (x) = 1$ ，则有 $I (x) = 0$ ;
(4) 严格单调性: 如果 $p (x) > p (y)$ ，则有 $I (x) < I (y)$ .
这里 $p (x)$ 是 $x$ 出现的概率。

定义 1.2 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots, D_{r}\right\}, R_{A}$ 是由 $A$ 诱导的 $U$ 上的模糊相似关系，对于任意的 $\in U$ ，样本 $x$ 的模糊决策 $\widetilde{D}_{i}(x)$ 定义如下：
$\widetilde{D}_{i}(x)=\frac{\left|[x]_{A} \cap D_{i}\right|}{[x]_{A}}.$

定义 1.3 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots, D_{r}\right\},\left\{\widetilde{D}_{1}, \widetilde{D}_{2}, \cdots, \widetilde{D}_{r}\right\}$ 是相对于 $U / D$ 的模糊划分, $A=\left\{a_{1}, a_{2}, \cdots, a_{m}\right\}$ 是真值属性集， $\subseteq A, R_{B}$ 是由 $B$ 诱导的 $U$ 上的模糊相似关系，对于任意 $D_{i} \in U / D, D_{i}$ 的模糊下近似和上近似定义如下：
$\begin{gathered} \underline{R}_{B}\left(D_{i}\right)(x)=\inf _{y \in U} \max \left\{1-R_{B}(x, y), \widetilde{D}_{i}(y)\right\}, \quad x \in U, \\ \quad \bar{R}_{B}\left(D_{i}\right)(x)=\max _{y \in U} \inf \left\{R_{B}(x, y), \widetilde{D}_{i}(y)\right\}, \quad x \in U. \end{gathered}$

定义 1.4 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots, D_{r}\right\}, \quad B \subseteq A, R_{B}$ 是由 $B$ 诱导的 $U$ 上的模糊相似关系，相对于属性子集 $B$ ，模糊决策 $D_{i}$ 的决策指标 $S\left(D_{i}\right)$ ，安全决策指标 $lowerS_{B}\left(D_{i}\right)$ ，风险决策指标 $upperS_{B}\left(D_{i}\right)$ 定义如下：
$\begin{gathered} S\left(D_{i}\right)=\frac{1}{n} \sum_{j=1}^{n} \widetilde{D}_{i}\left(x_{j}\right), \\ lower S_{B}\left(D_{i}\right)=\frac{1}{n} \sum_{j=1}^{n} \underline{R}_{B}\left(D_{i}\right)\left(x_{j}\right), \\ upperS_{B}\left(D_{i}\right)=\frac{1}{n} \sum_{j=1}^{n} \bar{R}_{B}\left(D_{i}\right)\left(x_{j}\right). \end{gathered}$ 安全决策指标表示样本被一致地分类为决策类的信息，风险决策指标表示样本可能属于该决策类的信息。

1.1 安全决策自信息

定义 1.5 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ , 相对于 $B$ ，决策 $D_{i}$ 的安全决策精度 $\alpha_{B}^{(1)}\left(D_{i}\right)$ 和安全决策粗糙度 $\beta_{B}^{(1)}\left(D_{i}\right)$ 定义如下：
$\begin{aligned} &\alpha_{B}^{(1)}\left(D_{i}\right)=\frac{{lower} S_{B}\left(D_{i}\right)}{S\left(D_{i}\right)}, \\ &\beta_{B}^{(1)}\left(D_{i}\right)=1-\alpha_{B}^{(1)}\left(D_{i}\right). \end{aligned}$ 显然， $\leq \alpha_{B}^{(1)}\left(D_{i}\right) \leq 1,0 \leq \beta_{B}^{(1)} \leq 1 . \alpha_{B}^{(1)}\left(D_{i}\right)$ 表示特征子集 $B$ 具有一致分类能力的程度。 $\beta_{B}^{(1)}\left(D_{i}\right)$ 表示样本无法完全正确分组到决策类 $D_{i}$ 的程度。

定义 1.6 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ ，安全决策自信息定义如下:
$I_{B}^{(1)}\left(D_{i}\right)=-\beta_{B}^{(1)}\left(D_{i}\right) \log \alpha_{B}^{(1)}\left(D_{i}\right).$

定义 1.7 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ , 决策表的安全决策自信息定义如下：
$I_{B}^{(1)}(D)=\sum_{i=1}^{r} I_{B}^{(1)}\left(D_{i}\right).$

定义 1.8 给定决策表 $\subseteq A$ , 称 $B$ 为相对于决策 $D, A$ 的一个安全决策约简，如果满足如下条件：
(1) $I_{B}^{(1)}(D)=I_{A}^{(1)}(D)$ ;
(2) $I_{B-\{a\}}^{(1)}(D) \neq I_{B}^{(1)}(D)$ , 对于任意 $\in B$ .

1.2 风险决策自信息

定义 1.9 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ ，相对于 $B$ ，决策 $D_{i}$ 的风险决策精度 $\alpha_{B}^{(2)}\left(D_{i}\right)$ 和风险决策粗糙度 $\beta_{B}^{(2)}\left(D_{i}\right)$ 的定义如下:
$\begin{gathered} \alpha_{B}^{(2)}\left(D_{i}\right)=\frac{S\left(D_{i}\right)}{upper S_{B}\left(D_{i}\right)}, \\ \beta_{B}^{(2)}\left(D_{i}\right)=1-\alpha_{B}^{(2)}\left(D_{i}\right). \end{gathered}$ 显然， $0<\alpha_{B}^{(2)}\left(D_{i}\right) \leq 1$ 且 $\leq \beta_{B}^{(2)}<1 .$ 这里 $\alpha_{B}^{(2)}\left(D_{i}\right)$ 表示特征子集 $B$ 刻画风险决策分类的能力, $\beta_{B}^{(2)}\left(D_{i}\right)$ 表示样本无法正确分组到决策类 $D_{i}$ 的程度。

定义 1.10 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ , 风险决策自信息定义如下:
$I_{B}^{(2)}\left(D_{i}\right)=-\beta_{B}^{(2)}\left(D_{i}\right) \log \alpha_{B}^{(2)}\left(D_{i}\right).$

定义 1.11 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ , 决策表的风险决策自信息定义如下：
$I_{B}^{(2)}(D)=\sum_{i=1}^{r} I_{B}^{(2)}\left(D_{i}\right).$

1.3 安全-风险决策自信息

定义 1.12 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ ，安全-风险决策自信息定义如下:
$I_{B}^{(3)}\left(D_{i}\right)=I_{B}^{(1)}\left(D_{i}\right)+I_{B}^{(2)}\left(D_{i}\right).$

定义 1.13 定义 4.1.12 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ ，决策表的安全-风险决策自信息定义如下:
$I_{B}^{(3)}(D)=\sum_{i=1}^{r} I_{B}^{(3)}\left(D_{i}\right).$

1.4 相对决策自信息

定义 1.14 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ ，相对于 $B$ 的决策 $D_{i}$ 的相对决策精度 $\alpha_{B}^{(3)}\left(D_{i}\right)$ 和相对决策粗糙度 $\beta_{B}^{(3)}\left(D_{i}\right)$ 的定义如下：
$\begin{gathered} \alpha_{B}^{(3)}\left(D_{i}\right)=\frac{{lower} S_{B}\left(D_{i}\right)}{{upperS}_{B}\left(D_{i}\right)}, \\ \beta_{B}^{(3)}\left(D_{i}\right)=1-\alpha_{B}^{(3)}\left(D_{i}\right). \end{gathered}$ 显然， $\leq \alpha_{B}^{(3)}\left(D_{i}\right) \leq 1,0 \leq \beta_{B}^{(3)} \leq 1 . \alpha_{B}^{(3)}\left(D_{i}\right)$ 表示特征子集 $B$ 相对于风险决策的描述安全决策分类的能力， $\beta_{B}^{(3)}\left(D_{i}\right)$ 反映了将样本分组为 $D_{i}$ 的分类能力的不确定性。

定义 1.15 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots D_{r}\right\}, B \subseteq A$ , 相对决策自信息定义如下：
$I_{B}^{(4)}\left(D_{i}\right)=-\beta_{B}^{(3)}\left(D_{i}\right) \log \alpha_{B}^{(3)}\left(D_{i}\right).$

定义 1.16 给定决策表 $D=\left\{D_{1}, D_{2}, \cdots, D_{r}\right\}$ , 决策表的相对决策自信息定义如下:
$I_{B}^{(4)}(D)=\sum_{i=1}^{r} I_{B}^{(4)}\left(D_{i}\right).$

定义 1.17 给定决策表 $\subseteq A$ ，称 $B$ 是相对于决策 $D, A$ 的一个约简，若 $B$ 满足以下条件：
(1) $I_{B}^{(4)}(D)=I_{A}^{(4)}(D)$ ;
(2) $I_{B-\{a\}}^{(4)} \neq I_{B}^{(4)}$ , 对于任意 $\in B$ .

2 应用举例

演示四种领域自信息的计算过程。直接贴图片吧，嘻嘻嘻…
表 $4 - 1$ 中给出模糊决策表 $(U, A, D)$ , 其中论域 $U=\left\{x_{1}, x_{2}, \cdots, x_{6}\right\}$ ， $A=\left\{a_{1}, a_{2}, a_{3}\right\}$ 是条件属性集， $D=\left\{D_{1}, D_{2}\right\}$ 是模糊决策集。
在这里插入图片描述
首先, 将三个属性归一化在区间 $[0, 1]$ 内。然后, 用以下公式计算在属性子集 $B$ 下，样本 $x_{i}$ 和, $x_{j}$ 的模糊相似度 $r_{i j}(i \neq j)$ .
$r_{i j}=1-\frac{1}{m} \sqrt{\sum_{k=1}^{m}\left(x_{i k}-x_{j k}\right)^{\wedge} 2}$
在这里插入图片描述

计算每个模糊决策的下近似和上近似，结果如表4-2到表4-5所
示：

计算模糊决策 $D_1$ 和模糊决策 $D_2$ 的决策精度和粗糙度，结果列于表4-6和表4-7中。

计算四个模糊自信息值，结果列于表4-8中。
在这里插入图片描述
从表4-8中的信息可以看出以下四条结论：
（1）每种自信息值可以反映特征子集的分类能力。
（2）随着特征的增加，四种决策自信息的价值都会降低，决策的不确定性也逐渐变小。
（3）安全决策自信息仅考虑下近似提供的不确定性信息，而风险决策自信息仅考虑由上近似提供的不确定性信息。
（4）决策表的安全性和风险自信息可以表示由 $I_{B}^{(3)}(D)$ 或 $I_{B}^{(4)}(D)$ 表示。然而, 当特征数量增加时, $I_{B}^{(4)}(D)$ 的减小率更快, 并且 $I_{B}^{(4)}(D)$ 具有较强的收敛效应。