简介
半监督学习问题(直推推断)的主要方法设计一个相对于intrinsic structure平滑的分类函数,本证结构由已标注和未标注的数据揭露。
给定一组数据 X={
x1,...,xl,xl+1,...,xn} 以及一个标签集合 L={
1,2,...,c} ,前l个数据已有标签,剩下的没有,算法的性能由这些未标注的数据的错误率测量。
半监督学习的的关键是一致性先验假设(prior assumption of consistency)。这意味着
- 靠近的数据点可能有相同的标签。
- 有相同结构的的数据点可能有相同的标签。
这个论点很类似与聚类假设。前一个假设是局部的,后一个全局的。经典的监督学习方法大部分只是应用了第一种假设。
The main differences between the various semi-supervised learning algorithms, such as spectral methods, random walks, graph mincuts and transductive SVM, lie in their way of realizing the assumption of consistency.
一个简单的迭代算法可以构造一个平滑的函数。文中方法的关键是让每个点iteratively spread 他的标签信息到他的临近,直到实现全局稳定 。
算法
Given a point set X={ x1,...,xl,xl+1,...,xn}⊂Rm and a label set L={ 1,...,c} the first l points xi(i≤l) are labeled as yi∈L