一、主动学习
主动学习引入了额外的专家知识,通过与外界交互将部分未标记样本变为有标记样本。
先用有标记样本训练出一个模型,使用该模型去挑选出一个最有用的未标记样本,询问专家,通过“查询”对该样本进行标记。把该样本加入标记样本的集合中训练出一个新的模型。按照上述方式进行迭代。
二、半监督学习
-
定义
给出一个训练数据集
={(
),(
),...,(
)},
(i=1……l)是标签,数据集
={
,...,
},l<<u。半监督学习(SSL)是通过同时使用
和
来学习一个函数f (x),然后提高(至少不降低)分类性能。
-
未标记样本的假设
聚类假设:假设数据存在簇结构,同一簇的样本属于同一类别。
流形假设:假设数据分布在一个流形结构上,邻近的样本具有相似的输出值
流形假设可看做聚类假设的推广
-
两种类别
纯半监督学习:是基于“开放世界”的假设,假定训练数据中未标记的数据并非待测数据,希望学到的模型能适用于训练过程中未观察到的数据。
直推学习:是基于“封闭世界”的假设,假定学习中的未标记样本恰是待测数据,仅试图通过学习对实验中未标记的数据进行预测。
三、半监督SVM
TSVM步骤:
(1)对带有标记的数据进行训练SVM
(2)通过使用训练好的SVM来预测未标记的数据
(3)使用标签数据和伪标签数据训练出一个新的SVM
(4)找到一对最错误预测的数据,并交换它们的标签,返回(2)
式子(13.9)
算法描述:
先利用有标记的样本学得一个SVM,然后用这个SVM对未标记数据进行标记指派。
初始化
的值远小于
。
找出两个标记为异类且很可能发生错误的未标记样本,交换他们的标记。再重新基于式子(13.9)求解出更新后的划分平面和松弛向量,不断迭代调整标记指派。
逐渐增大
,进行下一轮标记指派调整,直至
等于
。
四、协同学习
协同训练正是很好地利用了多视图的“相容互补性”,假设数据拥有两个“充分”且“条件独立”视图,每个属性集都足以描述该类样本,且相互独立。
首先在每个视图上基于有标记的样本分别训练出一个分类器,然后让每个分类器分别去挑选自己“最有把握的”未标记样本赋予未标记,并将伪标记样本提供给另一个分类器作为新增的有标记的样本用于训练更新。
五、半监督聚类
-
Constrained k-means
初始化均值向量。计算样本与各均值向量的距离,选择与样本
最近的簇,检测是否会违背必连勿连约束,若违背则依次尝试次近的簇。更新均指向量。不断迭代直至满足迭代条件。
-
Constrained Seed k-means
即假设少量有标记样本属于k个聚类簇,直接将它们作为“种子”,用它们初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。
5万+

被折叠的 条评论
为什么被折叠?



