多实例学习MIL（easy / hard）

本文链接：https://blog.csdn.net/zhu_ba/article/details/133322811

多示例学习（Multiple Instance Learning） - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/377220948

多示例学习

和弱监督（weakly supervised）有一定的关系，弱监督weakly supervised有三个含义（或者说三个方向，即三个弱的方面），他的训练数据：

1.弱在缺标签：即标签是不完全的，部分有标签，部分无标签。

2.弱在标签不准确：即部分标签是错的，部分是对的。

3.弱在标签不精确：即标签没有直接打在样本上，而是在一个更高层次上，包标签与样本标签并不不是一个意思。

多示例学习中，我们考虑这样一种训练数据，这个数据是有标记的，标记只有两个类别，正和负。但这一次标记的目标不是一个样本，而是一个数据包（bag)。

某一个或者几个数据合在一起叫做一个bag，每个bag有自己的标记。

当一个bag的标记为负时，这个bag里面所有样本的标记都是负的。当一个bag的标记为正时，这个bag里面至少有一个样本的标记为正。

因此，多示例学习的包也是直接打在包上的，但包上的标签和样本标签是一个意思，只是包上的标签并不一定说明包里的样本全都属于这个类。在多示例学习中，我们的目标是学习得到一个分类器，使得对新输入的样本，可以给出它的正负标记。这样的一类问题就是多示例问题。

比如说，方校长建长城的时候，他要列举一些违禁词汇不让大家搜索，他觉得一个一个输入太麻烦了，于是可以找来一些黄色或者反动的网站，直接作为正样本包：网站中的词汇总有一个是违禁的。然后拿健康向上的人民日报网页作为负样本包：里面的词汇没有一个是违禁的。
又比如做检测问题，标记训练图片样本的时候需要给出一个矩形框指明目标的位置，有可能标的不够准确，导致不同的样本之间对不齐，这时候可以将标记的矩形框做一些局部扰动得到一些新的矩形框，将它们一起看成一个bag，其中总有一个是最佳的正样本，也就是标记为正。而取一张没有目标的图片，作为负样本包：无论在里面怎么截取图片，都是负样本。

关于多示例问题怎么求解，假如说所有的样本标记都已经知道了，那就是一个监督学习的问题了，用SVM，adaboost之类的都可以做。现在的困难是，有很多样本的标记我们不知道。对于负样本包来说就无所谓了，里面每个样本那都是负标记，这个是明确的。问题出在正样本包上面，每个正样本包里只能保证有一个是正样本，其他的是正是负就不知道了，关键是到底是哪个样本是正的呢？这个也是不清楚的。

解决这个问题的方法其实挺直接的：迭代优化（alternative optimization)。也就是说，我们先假设已经知道了所有样本的标记，那么就可以通过某种监督学习的方法得到一个分类模型，通过这个模型我们可以对每个训练样本进行预测，然后更新它们的标记，我们又可以拿这一次新得到的标记重新训练分类模型了。所以整个优化过程分为两部分：监督学习，标记更新。

这里还有一些地方需要注意：

第一点，训练监督学习的模型的时候，只从正样本包里挑选被预测的“最像正确”(也就是分类得分最高)的那一个，正样本包里面其他的样本，不管预测出来是正的还是负的都不要了。这是因为，其实多示例的问题也可以描述为，正样本包里面“最正确”的一个样本标记是正的，跟其他样本无关。所以，这种选择策略恰恰是符合问题定义的。（选最容易分类的，因为可能只有一个）easy sample
第二点，如果负样本足够多的话，可以只挑选每个负样本包里面被预测“最像正确"的一个样本作为负样本进行训练，这样子的负样本也叫做hard sample或者most violated sample。实践上来说，它们对于模型快速收敛是最有效的。（选最难分类的，因为所有样本都是负的，并且要使模型能够有区分度，这种观点可以参考支持向量机中的支持向量的观点）hard sample

下面给出一个简单的流程图：

多示例学习：

输入：正包，负包

输出：分类函数 f

将每个标记包中的样本初始化为包的标记，初始化集合U为空，将所有样本加入样本集U

重复下面的过程：

取U中所有样本以及标记训练得到一个分类函数f
利用f预测所有样本的标记
清空U
对于每个正标记包，选取f预测得分最高的样本加入集合U（选最容易分类的一个）easy
对于每个负标记包，选取f预测得分最高的样本加入集合U（选最难分类的一个或多个）hard

直到满足结束条件

返回f

困难样本的作用

困难样本在机器学习和深度学习中起着重要的作用，它们对模型的训练和性能评估都有重要的影响。以下是困难样本的作用以及为什么要使用它们的一些原因：

提高模型性能：困难样本可以帮助模型更好地学习和泛化，因为它们代表了数据分布中的边缘情况和异常情况。通过让模型重点关注这些难以分类或处理的样本，可以提高模型的性能，并使其在未见过的数据上更具鲁棒性。
减少过拟合：过拟合是模型在训练数据上表现良好但在测试数据上表现糟糕的常见问题。通过引入困难样本，模型更有可能学习到数据的真实模式，而不是仅仅记住训练数据。这有助于减少过拟合的风险。
改善泛化能力：困难样本可以帮助模型更好地泛化到新的、未见过的数据。当模型能够处理困难情况时，它对于新数据的适应性更强，因为它已经学会了应对各种情况。
鲁棒性：在实际应用中，模型往往需要处理各种不同的输入。通过训练模型以处理困难样本，可以增强模型的鲁棒性，使其能够在各种情况下都表现良好。
诊断模型：困难样本可以用来诊断模型的性能和弱点。通过分析模型在困难样本上的表现，可以确定模型需要改进的方面，并采取相应的措施。
应对不平衡数据：在某些任务中，类别不平衡是一个常见问题，其中某些类别的样本数量明显少于其他类别。困难样本可以帮助平衡模型对不同类别的关注，防止模型只关注数量较多的类别而忽略其他类别。
增加挑战性：通过引入困难样本，可以使机器学习任务更具挑战性，这对于研究和发展新的算法和模型非常有价值。这种挑战性可以推动领域的进步。