Causality Inspired Representation Learning for Domain Generalization 阅读笔记_1100dp的博客-CSDN博客Causality Inspired Representation Learning for Domain Generalization 阅读笔记https://blog.csdn.net/qq_44901656/article/details/127341310这一篇讲的不错,主要看博客就行,我的为了放一下实验部分的翻译
4. 实验
4.1. 数据集
Digits-DG[64]包含四个数字域,包括MNIST[18]、MNIST-M[7]、SVHN[36]和SYN[7],它们在字体风格、背景和笔画颜色方面存在巨大的差异。按照[64],我们为每个领域的每个类别随机选择600张图像,然后将80%的数据用于训练,20%的数据用于验证。
PACS[20]是专门为DG提出的,它包含来自四个领域(艺术-绘画、卡通、照片和素描)的9,991张图片,风格差异很大。在每个领域中,有7个类别:狗、大象、长颈鹿、吉他、房子、马和人。为了进行公平的比较,使用了[20]提供的原始训练-验证分割。
Office-Home[58]是一个办公室和家庭环境中的物体识别数据集,它收集了65个类别的15,500张图像。这65个类别由四个领域(艺术、剪贴画、产品和真实世界)共享,这些领域在视角和图像风格上有所不同。按照[63],每个领域被分成90%用于训练,10%用于验证。
4.2. 实施
详细情况 按照常用的 "留一域 "协议[20],我们指定一个域作为评估的未见目标域,用其余域进行训练。对于Digits-DG,所有的图像都被调整为32×32,我们使用迷你批次SGD优化器从头开始训练网络,批次大小为128,动量为0.9,权重衰减为5e-4,共50个epochs。而学习率每20个epochs衰减0.1。至于PACS和Office-Home,所有图像都被调整为224×224。该网络使用迷你批次SGD从头开始训练,批次大小为16,动量为0.9,权重衰减为5e-4,共50个epochs,学习率在总epochs的80%时衰减0.1。对于超参数κ和τ,它们的值是根据源验证集的结果来选择的,因为目标域在训练期间是不可见的。具体来说,我们为Digits-DG和PACS设置了κ=60%,而为Office-Home设置了κ=80%。所有的结果都是基于三次重复运行的平均精度报告的。更多细节在补充细节中给出。
4.3. 实验结果
表1列出了Digits-DG的结果,其中CIRL在平均准确率方面击败了所有的比较基准。请注意,CIRL超过了基于领域变量表示的方法CCSA[34]和MMD-AAE[22],差距很大,分别为8.0%和7.9%,这表明了挖掘数据和标签之间内在因果机制的重要性,而不是表面的统计依赖。此外,我们还将CIRL与FACT[63]进行了比较,因为我们的因果干预模块也采用了同样的增强技术。值得一提的是,FACT是DG社区中相当先进的方法,1.0%的性能提升是很有挑战性的。而CIRL比FACT有1.0%的改进,这进一步验证了我们方法的有效性。
表2和表3分别报告了基于ReNet-18和ResNet-50的PACS的结果。可以看出,在所有被比较的方法中,CIRL在两个骨干网中都获得了最高的平均准确率。具体来说,与同样将因果关系引入DG问题的MatchDG[32]相比,CIRL在ResNet-18和ResNet-50上以1.76%和4.01%的较大优势优于MatchDG。因为CIRL明确地根据更多的理论表述来学习因果表征,而不是以隐性的方式。也存在CIRL表现相对较差的情况,这可能是由于任务的性能相当饱和,如照片任务,或由于不良的图像质量,如包含受损因果信息的噪声样本。然而,我们仍然在这些任务上取得了第二好的成绩,而且我们的整体表现超过了其他的任务。总的来说,令人鼓舞的结果证明了我们在CIRL中的因果关系重建技术的优越性。
表4总结了基于ResNet-18的Office-Home的结果。更多的类别和样本使得Office-Home成为比PACS更具挑战性的领域概括基准。在这个具有挑战性的基准上,CIRL仍然取得了67.12%的最佳平均性能,以0.56%的优势超过了FACT[63]。这些改进进一步证明了CIRL的功效。
4.4. 分析性
实验消融研究。我们讨论了CIRL中因果干预(CInt.)模块、因果分解(CFac.)模块和对抗性掩码(AdvM.)模块的影响。表5列出了以ResNet-18为骨干的PACS数据集上CIRL的不同变体的结果。比较变体1、2和变体3,我们可以发现,结合CInt.和CFac.模块的性能要好得多,这表明仅从非因果因素中分离出表示或使维度独立并不足以很好地对因果因素进行建模。此外,变体4比变体2的性能有所提高,这意味着AdvM.模块有助于将更多的信息集成到用于分类的表示中。最后,CIRL表现最好,表明这三个模块相互补充,相互促进,其中没有一个模块是卓越的概括能力所不可或缺的。
视觉解释。为了直观地验证CIRL学习的表征可以模拟因果关系的说法,我们利用文献[52]中的可视化技术,提供了基线(即DeepAll)和CIRL方法的最后卷积层的注意力图。结果显示在图4中。我们可以看到,与基线方法相比,CIRL学到的表征更多的是类别相关的。以长颈鹿为例,它的长脖子可以被看作是分类的因果因素之一,这一点被CIRL准确地捕捉到了。而基线侧重于非因果因素(例如,类似于鬃毛的纹理),这导致了错误分类。更多的可视化结果在补充材料中给出。
因果表征的独立性。图5a和5b显示了任务草图上各维度表征之间的独立程度。具体来说,我们使用∥C∥2 F - ∥diag(C)∥2 2作为度量,较小的值表示较好的独立性,其中C是第3.2.2节中的相关矩阵。很明显,在ResNet-18和ResNet-50上,基线方法的独立性都很差,而CIRL的独立性随着训练历时的增加而增加,最后在稳定后达到了很高的程度。这些结果证明了我们设计的因果分解模块的功效,它允许我们学习的表征可以作为因果因素的模拟。
表征的重要性。理想情况下,我们希望表征的每个维度都能具有重要意义,涉及尽可能多和有利的因果信息,使整个表征在因果上足以用于分类。受[11]的启发,我们利用分类器第一层的权重来估计每个表征维度的这种重要性。请注意,我们对每个维度的权重进行了破坏性的归一化,即(x-min)/(max-min)来处理规模问题。由于维度的数量很大,我们在表6中显示了所有维度的重要性的平均值和标准偏差。可以看出,MatchDG[32]和CIRL呈现出较高的表示法重要性,因为它们将真正影响分类的因果信息嵌入表示法中。此外,CIRL达到的最高平均值和最低标准差表明,我们学习的表征的每个维度都很重要,这进一步显示了CIRL的优越性。
参数敏感度。图5c和5d显示了CIRL对超参数τ和κ的敏感性。具体来说,τ的值从{1.0, 2.0, 3.0, 5.0, 10.0}变化,而κ从{0.5, 0.6, 0.7, 0.8, 0.9}变化。可以看出,在广泛的超参数值下,即5.0≤τ≤10.0和0.5≤κ≤0.6,以ResNet-18或ResNet-50为骨干,CIRL都取得了有竞争力的性能,这进一步验证了我们方法的稳定性。
5. 结论
本文指出了统计学知识的不足,并提出了DG的因果观。其主要思想是重构因果因素,挖掘内在的因果机制。然后,我们提出了一个框架CIRL来学习因果表征,它可以根据我们强调的理想属性来模仿因果因素。全面的经验证明了CIRL的有效性和优越性。考虑到相关工作的主流一般都是基于变量之间的统计依赖性,我们希望我们的工作能够给这个社区带来一些启示。