BLIP-Adapter: 移动屏幕截图打字幕的参数-有效的迁移学习

硅谷秋水

于 2024-07-14 00:07:20 发布

阅读量617

点赞数 11

分类专栏：大模型机器学习人工智能文章标签：迁移学习人工智能机器学习计算机视觉语言模型

本文链接：https://blog.csdn.net/yorkhunter/article/details/140408934

版权

大模型同时被 3 个专栏收录

431 篇文章 6 订阅

订阅专栏

机器学习

245 篇文章 2 订阅

订阅专栏

人工智能

225 篇文章 0 订阅

订阅专栏

23年9月来自台大的论文“BLIP-Adapter: Parameter-Efficient Transfer Learning for Mobile Screenshot Captioning“。

本研究旨在探索屏幕截图字幕任务的有效调优方法。最近，图像字幕有了显著的进步，但对移动屏幕字幕任务的研究仍然相对较少。当前在产品屏幕截图中描述用户行为的数据集和用例明显有限。因此，该文试图为屏幕截图字幕任务微调预先存在的模型。然而，由于图像字幕模型中有大量参数，微调大型预训练模型可能需要大量资源，需要相当大的时间、计算能力和存储。为了解决这一挑战，本研究提出了一种适配器方法的组合，这需要只调整模型的附加模块。这些方法最初是为视觉或语言任务设计的，而该文意图是将它们应用于解决屏幕截图字幕中的类似挑战。通过固定图像字幕模型的参数并仅训练与方法相关的权重，可以实现与微调整个模型相当的性能，同时显著减少参数数量。
视觉-语言模型是一类融合了视觉和语言组件的模型，用于处理跨两个领域的任务。这些模型的体系结构可能因具体任务而异。例如，在图像-文本匹配任务中，通常首选同时具有视觉编码器和文本编码器的Siamese网络架构。相反，图像字幕任务通常采用编码器-解码器架构，该架构包括视觉编码器和文本解码器。

多年来，出现了各种视觉-语言模型，反映了架构设计和预训练策略的进步，尤其是在图像字幕任务中。2015年，（Vinyals2015）推出了一种图像字幕生成器，该生成器将卷积神经网络（Krizhevsky，Sutskever&Hinton，2012）作为视觉编码器与递归神经网络协同工作，作为文本解码器。2018年，引入了自下而上和自上而下的注意力模型（Anderson2018）。其主要创新在于利用Faster R-CNN（Ren2015）进行目标检测，获得相应的检测目标和标签，实现自下而上的注意机制。此外，长-短期记忆（LSTM）网络（Hochreiter&Schmidhuber 1997）在解码器中被利用，根据输出语言动态调整对输入图像特征的关注。这种注意机制使模型能够更加关注图像中更突出和重要的目标，从而创建更好的描述。然而，在基于Transformer架构的模型（Vaswani2017；Devlin2019）在自然语言处理任务中展示了最先进的性能后，影响扩展到了视觉-语言模型领域。Dosovitskiy推出的视觉转换器（Dosovitski2021）标志着一个重要的里程碑。视觉Transformer将图像视为补丁序列，将Transformer架构应用于视觉数据。这种方法在图像分类任务中取得了具有竞争力的结果，并影响了视觉-语言模型的发展。在这些创新的基础上，2022年推出BLIP模型（Li2022b）在多个视觉-语言任务中实现了最先进的性能。它通过预训练多模式组件（如视觉和文本编码器）以及文本解码器来实现这一点，这些组件适用于各种视觉语言任务，包括图像-文本匹配、视觉问答和图像字幕。在预训练期间，BLIP利用大规模数据集，包括COCO（Lin2014）、 Visual Genome （Krishna2017）、 Conceptual Captions（Sharma2018）、Conceptual Captions（Changpinyo2021）、SBU字幕（Ordonez、Kulkarni&Berg，2011）和LAION（Schuhmann2021）进行全面的预训练。在图像字幕任务中，使用视觉编码器和文本解码器组件，分别为ViT（Dosovitskiy2021）和BERT（Devlin2019），然后对COCO字幕数据集进行微调（Lin2014）。ViT和BERT的这种融合强调了Transformer架构在推动视觉-语言模型进步方面的变革作用。这样的进步凸显了架构创新和精细的预训练策略在进一步推进视觉-语言理解和生成领域中的重要性。

Houlsby等人于2019年推出的Adapter（Houlsby 2019）是一种用于迁移学习的参数有效调优技术。这种方法在不改变原始参数的情况下，向预训练的模型中添加轻量级的、特定于任务的层或模块。与其对整个模型进行微调，不如只对小规模的适配器（adapter）进行微调，以达到调优效果。在冻结剩余参数的同时选择性地更新这些适配器，可以在不显著影响模型性能的情况下实现参数效率。此外，在训练期间仅节省适配器的附加权重，与节省整个模型的权重相比，实现了更高的存储效率。这些适配器学习特定于任务的信息，同时保持预训练模型的参数不变，从而降低计算和存储成本，并允许更好地泛化到不同的任务。

适配器不仅在自然语言处理任务中表现出显著的性能（Houlsby2019；He2021；Bapna、Arivazhagan&Firat 2019；Pfeiff-fer2020；Chen2023b），而且在各种视觉任务中也表现出显著性能。（Chen2023a；Pan2022；Ermis2022；Yi Lin Sung 2022）。Houlsby等人提出的瓶颈适配器（bottleneck adapter）被插入到Transformer架构中，特别是位于前馈层之后。这些适配器包括向下投影，然后是GELU激活功能，然后是向上投影。（Bapna、Arivazhagan & Firat 2019）引入额外的层进行规范化并用ReLU激活函数替换GELU激活函数，修改了翻译任务的适配器架构。2021年提出的Compacter架构（Karimi Mahabadi、Henderson&Ruder 2021）用参数化超复数（hypercomplex）乘法层代替线性向下和向上投影来修改适配器结构。与线性层不同，这个超复数乘法层从两个较小的矩阵生成其权重矩阵，从而减少了参数数量。此外，这些矩阵可以分解并在所有适配器层之间共享。前缀调优（Prefix Tuning）在2021年引入（Li&Liang2021），在每个Transformer层的多头注意块中引入新参数进行创新。具体来说，通过在注意头部输入的Key和Value预先添加可训练前缀向量来增强模型，这为模型的注意机制增加了灵活性和适应性。低秩自适应（Low-Rank Adaptation，即LoRA），由2021年引入（Hu2021），将可训练的低秩分解矩阵合并到预训练模型的层中。具体而言，LoRA针对Transformer的自注意层内的注意权重。BitFit（Zaken、Ravfogel&Goldberg 2021）没有引入额外的参数，而是简单地微调每个模块中的偏差项，允许在对预训练模型进行最小更改的情况下的特定任务自适应。在目标检测任务中，2023年引入了显式视觉提示（EVP）（Liu2023），采用了类似于Houlsby适配器的架构。EVP通过将手工设计的特征作为适配器的输入并利用适配器结构内的共享投影层来区分自己。2022年介绍了VL适配器（Yi Lin Sung 2022），他们在其中尝试将各种适配器集成到视觉-语言模型中，并评估了它们的性能。主要地，这些适配器应用于视频问答任务。

手机屏幕截图字幕是图像字幕的一个子集，专注于为手机屏幕截图生成文本描述。由于手机屏幕截图的独特特性，包括各种UI元素的存在、固定布局的缺乏以及广泛的UI元素和样式，这项任务尤其具有挑战性。与强调对整个场景和目标进行描述的一般图像字幕相反，手机屏幕截图字幕侧重于阐明UI元素的功能和内容。此外，在手机屏幕截图字幕中，UI元素的布局与字幕性能的联系更紧密。

Screen2Words于2021年推出（Wang2021），是第一个用于手机屏幕截图字幕的开源数据集。该数据集建立在Rico数据集的基础上（Deka2017），这是一个包含移动应用程序界面图像和UI布局的大型数据集。Screen2Words增强了Rico数据集中的移动屏幕截图（Deka2017），包含与屏幕截图相对应的人类标注文本描述。该数据集由22417个独特的Android屏幕截图组成，每个截图都附有五个简洁的语言描述，传达了移动屏幕的重要内容和功能。这些描述对于各种基于语言的应用场景都很有价值。此外，他们还提供了一个模型，该模型包括ResNet编码器和Transformer解码器，用于评估数据集的性能。

该文探讨了应用于屏幕截图字幕任务的各种参数有效调优策略的有效性。其目标是说明采用参数高效调优方法的组合如何有助于实现字幕模型的参数高效调优，同时最大限度地提高屏幕截图字幕系统的性能。BLIP caption模型（Li2022b）被用作实验的图像字幕模型，并通过Screen2Words数据集（Wang2021）作为基线进行微调。随后，在BLIP字幕模型的视觉编码器和文本解码器上分别评估了参数有效微调策略。在此之后，采用这些策略的不同组合来确定优化模型架构和微调模型组件以实现期望结果的最有效方法。

介绍几种方法可以修改模型架构。

首先，分别在视觉编码器或文本解码器上使用这些参数有效的调优方法进行实验，观察每种方法对视觉-语言模型的影响。由于EVP适配器是专门为目标检测任务量身定制的，并且与视觉转换器架构非常一致，因此它被部署在视觉编码器上。模型中每种方法的插入或修改位置，如图（a）所示。为此，实验了三种不同的手工特征作为EVP适配器的输入：如EVP论文中所述的，原始图像的快速傅立叶变换、原始图像本身及其亮度版本。包含灰度版本对屏幕截图特别有利，因为大多数屏幕截图元素的语义与颜色无关。另一方面，考虑到其他方法主要是为NLP任务设计的，应用于文本解码器被认为是合适的。这样做是为了确定当只选择视觉编码器或文本解码器中的一个时，对视觉-语言模型修改的方法是否更有效。

其次，实现了与VL适配器的模型实现类似的修改（Sung、Cho&Bansal 2022），包括在视觉编码器和语言模型之间插入视觉项目，如图（a）所示。模型和VL适配器的模型之间的一个关键区别是前者没有文本编码器。因此，在视觉编码器和文本解码器之间插入了线性投影层。在这种策略中，只对文本解码器上的视觉投影模块和相关模块进行了微调。给定应用于整个视觉编码器的冻结，仅使用文本解码器上的方法。此外，受VL适配器实现的启发，用视觉Transformer块代替线性投影层作为视觉投影进行了实验。这样做是为了确定在这种特定情况下，采用视觉投影并单独微调的文本解码器是否优于微调整个模型。

在这里插入图片描述
最后，尝试将视觉编码器和文本解码器上的方法结合起来，看看这种结合是否能带来增强的结果。EVP适配器使用各种手工特征集成到视觉编码器中，并与Houlsby适配器和LoRA相结合，后者在文本解码器上实现。由于BitFit的基本原理不是引入额外的模块，而是微调偏差，因此对整个模型进行了附加的测试。