来源文章:FLAVA: A Foundational Language And Vision Alignment Model
https://arxiv.org/pdf/2112.04482.pdfhttps://arxiv.org/pdf/2112.04482.pdf
Local contrastive (GC) loss 局部对比损失
计算对比损失的梯度和嵌入特征向量的操作都是在同一块GPU上完成的。这种方法被称为“本地对比”,因为所有的计算和反向传播都在本地GPU上进行,而不涉及其他GPU。这与“全局对比”方法形成对比,后者会在所有的GPU上进行反向传播。
Global contrastive (GC) loss 全局对比损失
在这种情况下,一个批次中的样本会在各个GPU之间进行分割。但是这种方法在FLAVA的训练中与只在本地进行反向传播相比,跨GPU进行完全反向传播可以带来显著的性能提升。