决策理论

最新推荐文章于 2022-03-29 23:05:49 发布

小君不忧

最新推荐文章于 2022-03-29 23:05:49 发布

阅读量511

点赞数

分类专栏：机器学习 prml

本文链接：https://blog.csdn.net/wuchuankang/article/details/87997469

版权

机器学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

prml

1 篇文章 0 订阅

订阅专栏

决策理论：最小错误率和最小期望误差

最小错误率

这里是对分类问题而言的，现在考虑二分问题，对于一个输入向量，出现错误的情况是，真是标签是 $C_1$ 的被分到 $C_2$ 上，反之亦然。因为真是标签不知道，所以我们用概率来表达：
$KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(mistake) &=p…$
式 $(1)$ 中， $R_i$ 意思是将 $\bold x$ 分到 $C_i$ 上的区域，并不是说积分区域是 $R_i$ ，积分区域实际就是输入向量 $\bold x$

我们的决策理论是：选择最大后验概率最大的!

可以通过下面的方式进行论证：
$\hspace 1cm {p(\bold x,C_1)>P(\bold x,C_2)} \tag 2$
那么我们就将一个输入向量 $\bold x$ 分配到 $C_1$ 中，此时：
$KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ p(mistake) &=p…$
同样，当 $\bold x$ 分配到 $C_2$ 中时， $p(mistake)=\int_{R_2}p(\bold x, C_1)d\bold x$ ，由于积分区域相同，都是输入向量 $\bold x$ ，显然，选择分配到 $C_1$ 时误差率更小。那为什么是最大后验概率呢？这是因为 $p(\bold x,C_i )=p(C_i/\bold x)p(\bold x)$ ，即对于不同的 $C_i$ ， $p(\bold x)$ 是相同的，所以 $p(\bold x,C_1)>P(\bold x,C_2)$ 等价于 $p(C_1/\bold x)>P(C_2/\bold x)$ 。
最小期望误差

对于一些分类问题，不同分错情况的影响结果是不同的，比如得癌症被判为正常，和正常被判为癌症，结果完全不同，前者可能没有得到及时治疗而死亡，后者可能影响不大，或者后续的检测可以检测出正常。通过一个惩罚函数，对某一种错分施加较大的惩罚，是的学习完成后，使得这种错分情况变得比其他情况要小，这样的学习才更有意义。

对于一个输入，其真是的输出我们是不知道的，可以用联合概率来表达： $p(\bold x,C)$ ，每一种可能的真实输出都对应一个损失，我们用期望损失来表达整体的损失:
$\mathbb E(L) = \sum_i\sum_j\int_{R_j} L_{ij}P(\bold{x},C_i)d\bold{x}$
由于联合概率 $p(\bold {x},C)$ 是未知的，所以我们用训练集（样本）来估计期望损失，也就是用经验损失来估计期望损失，然后优化经验损失函数。其具体过程在这里叙述一下：对于训练集 $\left \{ (x_1,y_1),...(x_N,y_N) \right \}$ ，对每一个输入 $x_i$ ，通过建模都可以预测出一个 $f(x_i)$ ，其经验损失就是 $L(y_i,f(x_i))\widehat P_{data}(x\in f(x_i),y_i)=\frac 1 N L(y_i,f(x_i))$ ，所以整个训练集的经验损失就是 $\frac 1 N \sum_i^N {L(y_i,f(x_i))}$ 。

那么决策阶段，也就是对一个新的输入应该指定一个类的依据是什么呢？我们的决策是，将其分类到这样一个类 $R_j$ 中，使得其损失函数最小，也就是下面的：
$KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}̲ R_{opt} &=\arg…$

上面式子中对任意类别 $C_i$ ， $P(\bold x)$ 是常值，这是因为 $P(\bold x)$ 就是输入特征的概率密度，与 $C_i$ 无关。可以看到最有化决策是：

对于一个新的输入，将其分为 $C_j$ 类，该类使得 $\sum_i L_{ij}P(C_i/\bold x)$ 成立！

最小错误率和最小期望误差的联系

考虑二分问题，当损失函数是 $0 - 1$ 损失时，这两个是相同的，具体分析见李航《统计学习方法》中第4章朴素贝叶斯方法：后验概率最大化的含义。

小君不忧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策理论

决策理论：最小错误率和最小期望误差最小错误率这里是对分类问题而言的，现在考虑二分问题，对于一个输入向量，出现错误的情况是，真是标签是C1C_1C1的被分到C2C_2C2上，反之亦然。因为真是标签不知道，所以我们用概率来表达：KaTeX parse error: No such environment: split at position 8: \begin{̲s̲p̲l̲i̲t̲}...
复制链接

扫一扫