使用信任集利用腐败矩阵提高网络对含噪标签的鲁棒性

02Bigboy

已于 2022-03-28 11:49:02 修改

阅读量173

点赞数 1

分类专栏：理论推导文章标签： python 学习机器学习

于 2022-03-28 11:42:40 首次发布

本文链接：https://blog.csdn.net/wj199992/article/details/123790015

版权

理论推导专栏收录该内容

2 篇文章 0 订阅

订阅专栏

腐败矩阵

利用腐败矩阵可以提高模型对含噪标签的鲁棒性。
具体应用如下：
一个带标签数据集中，有一部分信任的数据集 $D$ ，有部分是不信任的数据集 $\widetilde D$ ，我们的目的是如何用上面标签含噪的数据集训练一个对标签噪声具有鲁棒性的网络。

第一步：估计腐败矩阵

腐败矩阵：就是腐败概率的KxK矩阵，K是类别数。腐败概率就是原本标签是 i,却分类成 j 的概率
$C_{ij} = p(\widetilde{y} =j|y=i)$
估计准备：
(1): $p(\widetilde{y}|x,y)*p(x|y)=p(\widetilde{y}|y)*p(x|\widetilde{y},y)$
将（1）式两边同时对x进行积分：
(2): $\int p(\widetilde{y} \mid y, x) p(x \mid y) \mathrm{d} x=p(\widetilde{y} \mid y) \int p(x \mid \widetilde{y}, y) \mathrm{d} x=p(\widetilde{y} \mid y)$
假设y和 $\hat{y}$ 在给定x的情况下条件独立,，则有：
$p(\widetilde{y} \mid y, x)=p(\widetilde{y} \mid x)$
所以（2）式左边就可以看成 $p(\widetilde{y} \mid x)$ 的均值。
那 $p(\widetilde{y} \mid x)$ 怎么得到呢？
我们可以通过在不信任数据集 $\widetilde D$ 上训练分类器得到 $p(\widetilde{y} \mid x)$ 的近似估计：
(3): $\hat{p}(\widetilde{y} \mid y, x) \approx p(\widetilde{y} \mid y, x)$
然后我们将在不信任数据集 $\widetilde D$ 上训练分类器得到的分类器 $\hat{p}(\widetilde{y} \mid x)$ 作用在信任的数据集上面，就可以得到腐败矩阵的估计值了：
(4): $\widehat{C}_{i j}=\frac{1}{\left|A_{i}\right|} \sum_{x \in A_{i}} \widehat{p}(\widetilde{y}=j \mid x)=\frac{1}{\left|A_{i}\right|} \sum_{x \in A_{i}} \widehat{p}(\widetilde{y}=j \mid y=i, x) \approx p(\widetilde{y}=j \mid y=i) .$
(4)式中 $A_i$ 表示信任数据集中标签为 i 的子集。

第二步利用腐败标签即腐败矩阵提高网络的鲁棒性

我们初始化模型： $g(x)=\widehat{p}(y \mid x ; \theta)$
然后用信任集的损失：
$\ell(g(x),y)\quad on\quad D$
和不信任集的损失：
(5): $\ell\left(\widehat{C}^{\top} g(x), \widetilde{y}\right) \quad on \quad \widetilde D$
解释一下在不信任集上的损失(5)：
(6): $p(\widetilde{y},y)p(y \mid x)=p(\widetilde{y}\mid x)$
由（6）式我们可以看出，虽然不信任集的损失（5）是在不信任标签 $\widetilde{y}$ 下训练的，但得到 $g (x)$ 却可以反映真实的预测标签 $\mid x)$ 。
所以我们最终可以得到一个很好的分类模型
$g(x)=\widehat{p}(y \mid x ; \theta)$

论文参考：Using Trusted Data to Train Deep Networks on Labels Corrupted by Severe Noise. 2018 NIPS.

02Bigboy

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用信任集利用腐败矩阵提高网络对含噪标签的鲁棒性

腐败矩阵利用腐败矩阵可以提高模型对含噪标签的鲁棒性。具体应用如下：一个带标签数据集中，有一部分信任的数据集DDD，有部分是不信任的数据集D~\widetilde DD，我们的目的是如何用上面标签含噪的数据集训练一个对标签噪声具有鲁棒性的网络。第一步：估计腐败矩阵腐败矩阵：就是腐败概率的KxK矩阵，K是类别数。腐败概率就是原本标签是 i,却分类成 j 的概率Cij=p(y~=j∣y=i)C_{ij} = p(\widetilde{y} =j|y=i)Cij=p(y=j∣y=i)估计准备：(
复制链接

扫一扫