为什么要弱监督?
对于标签(真值表)、训练集收集难度大、收集时间长、收集代价高,且对于此紧急的数据,强监督学习可能赶不上它的更新或紧急程度。
弱监督类型
弱监督通常分为三种类型:不完全监督、不确切监督、不准确监督。
不完全监督
指的是训练数据只有部分是带有标签的,同时大量数据是没有被标注过的。这是最常见的由于标注成本过高而导致无法获得完全的强监督信号的情况
流行的学习范式有主动学习、半监督学习、迁移学习。
- 主动学习:
它假设未标注数据的真值标签可以向人类专家查询,让专家为估计模型最有价值的数据点打上标签。在我们只考虑用查询次数衡量标出成本的情况下,主动学习的目标是在提高查询效率,在查询次数尽可能小的情况下,使得训练出的模型性能最好。
衡量查询样本的价值时,有两个被最广泛使用的标准:信息量和代表性。
- 半监督学习(semi-supervised learning):
半监督学习是一种在没有人类专家参与的情况下对未标注数据加以分析、利用的学习范式。通常,尽管未标注的样本没有明确的标签信息,但是其数据的分布特征与已标注样本的分布往往是相关的,这样的统计特性对于预测模型是十分有用的。
- 迁移学习(Transfer Learning)
把一个领域(源领域,标签很好获取,而且大量充足)的训练好的模型,迁移到另外一个领域(目标领域,通常标签很难获得,而且很少),微调一下可能就使得目标领域能够取得更好的学习效果。
不确切监督
关注于给定了监督信息,给定粗颗粒度标签,但信息不够精确的场景。比如我要判断某个图是否包含车,我能给这个图片一个标签,但我不能给出有什么具体特征判断这个图片有车
不准确监督
我可以给标签,但这个标签不总是对的。你不能全按照我的标签来学习。