基于协同训练的多视图学习——Tri-training 算法

最新推荐文章于 2024-07-09 21:10:23 发布

不易撞的网名

最新推荐文章于 2024-07-09 21:10:23 发布

阅读量852

点赞数 13

分类专栏：机器学习文章标签：学习算法机器学习

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140306664

版权

221 篇文章 2 订阅

订阅专栏

Tri-training是一种半监督学习算法，由Zhou和Li在2005年提出，它通过使用三个分类器来互相验证和利用未标记数据，从而提高学习效果。

Tri-training的基本思想是通过训练三个独立的分类器，并让它们相互协作来标记未标记的数据，以此增强各自的性能。

初始阶段：从标记数据集中通过自助采样（Bootstrap）方法创建三个不同的子数据集。
分类器训练：使用这三个子数据集训练三个不同的分类器。
未标记数据预测：对于每一个分类器，其余两个分类器将预测未标记数据的类别。
高置信度样本选择：如果两个分类器对某未标记样本的预测结果一致，且预测的置信度高于某个阈值，则将此样本及其预测的标签添加到第三个分类器的训练集中。
分类器更新：使用更新后的训练集重新训练第三个分类器。
迭代：上述过程对三个分类器轮流进行，直到达到预设的停止条件，例如模型收敛或者没有更多的未标记数据可以增加置信度。

在Tri-training中，通常不会直接涉及数学上的公式，但是会有一些关键的概念和阈值的设定，例如置信度阈值（confidence threshold），用于决定是否将未标记数据的预测结果视为可靠并加入到训练集中。

如果我们要讨论与评估分类器性能相关的公式，可以考虑以下几种常见的性能度量：

具体的计算公式如下：

$\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}$

$\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}$

$\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$

$\text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}$

其中，

这些度量在评估Tri-training算法的性能时非常有用，特别是在查看算法如何处理未标记数据和改善分类器的泛化能力方面。

关注