【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

EVA 是一个十亿参数的预训练视觉模型,通过自监督学习重建图像-文本对齐特征,无需大量监督数据。在图像识别、目标检测、实例分割等任务上,EVA 创造了新纪录,尤其在大词汇量实例分割任务中展现出显著优势。此外,EVA 也可作为多模态模型的起点,改善CLIP的训练效果。
摘要由CSDN通过智能技术生成

Abstract:

        本文推出了 EVA,这是一个以视觉为中心的基础模型,旨在仅使用可公开访问的数据来探索大规模视觉表示的局限性。EVA 是一种经过预训练的普通 ViT,用于重建 以可见图像块为条件的 屏蔽掉的图像-文本对齐(image-text aligned)的视觉特征。通过这个前置任务,我们可以有效地将 EVA 扩展到 10 亿个参数,并在图像识别、视频动作识别、目标检测、实例分割和语义分割等广泛的代表性视觉下游任务上创造新记录,而无需大量监督训练。

        此外,我们观察到 缩放 EVA 的量变导致迁移学习性能的质变,这在其他模型中是不存在的。例如,EVA 在具有挑战性的大词汇量实例分割任务中取得了巨大飞跃:本文的模型在具有超过一千个类别的 LVISv1.0 数据集和只有八十个类别的 COCO 数据集上实现了几乎相同的最先进性能

        除了纯粹的视觉编码器,EVA 还可以作为 以视觉为中心的多模态的支点 来连接图像和文本。我们发现从 EVA 初始化巨型 CLIP 的视觉塔可以 以更少的样本和更少的计算 极大地稳定训练 并优于从头开始的训练,为 扩大 和 加速 多模态基础模型的昂贵训练 提供了新的方向。为了方便未来的研究,本文发布了所有代码和十亿规模的模型。

(Code & Models: https://github.com/baaivision/EVA)


1. Introduction

        扩大预训练语言模型 (PLM) [9,63,76] 在过去几年彻底改变了自然语言处理 (NLP)。这一成功的关键在于掩码信号预测 [31、74] 的简单且可扩展的自监督学习任务,利用该任务,Transformer 模型 [101] 可以使用几乎无限的未标记数据扩展到数十亿个参数,并且只需很少的调整就可以很好地泛化到各种下游任务。随着计算、数据和模型规模的进一步扩展,PLM 不仅带来了持续的性能改进 [51、75、76],而且令人惊讶地出现了上下文学习(in-context learning)能力 [9、25、107、108]。

        受 NLP 模型扩展成功的推动,我们还可以将这种成功从语言转化为视觉,即 扩大以视觉为中心的基础模型,该模型有利于视觉和多模态下游任务。最近,掩码图像建模 (MIM) [5, 40, 116] 作为一种可行的视觉模型预训练和缩放方法得到了蓬勃发展。然而,最具竞争力的数十亿级视觉预训练模型 [33、64、71、123] 仍然 严重依赖监督或弱监督训练 以及数亿(通常是公开不可访问的)标记数据。 MIM 在某种程度上仅被用作 严格地监督预训练之前的 初始化阶段 [64],或者纯 MIM 预训练模型无法在十亿规模的模型大小下实现良好的性能 [117]。我们认为这种差距源于自然图像是原始的且信息稀疏的事实。同时,理想的视觉前置任务 不仅需要 低级几何结构信息的抽象,还需要高级语义的抽象,而像素级恢复任务 很难捕获这些信息[115]。

        在这项工作中,本文大规模视觉表示学习寻找合适的 MIM 前置任务,并探索其在十亿参数规模和数千万未标记数据下的极限。最近,有一些试验 利用 图像-图像 或 图像-文本 对比学习 [13、22、73] 的语义信息进行 MIM 预训练 [44、109、130],它们在视觉下游任务中表现相当好。然而,关于 (i) 标记化语义特征 可以为视觉中的掩码建模提供更好的监督信号 [5、70、104] 以及 (ii) 良好的性能也可以通过 没有掩码预测任务的 简单后蒸馏过程 [110 ]来实现 仍然存在争论 。通过试点实证研究,本文发现简单地使用图像-文本对齐(即 CLIP [73])视觉特征作为 MIM 中的预测目标可以很好地扩展 并在广泛的下游基准测试中 取得令人满意的性能。该预训练任务受益于图像文本对比学习的高级语义抽象 以及 掩码图像建模中几何和结构的良好捕获,这通常涵盖了大多数视觉感知任务所需的信息

        通过这个 MIM 前置任务,我们可以有效地将一个普通的 ViT 编码器 [33],称为 EVA,扩展到十亿个具有强大视觉表示的参数,可以很好地传输到广泛的下游任务&#

### 回答1: 移动电子健康应用程序的未来:探索HTML5作为C的开发平台。 移动电子健康应用程序在过去几年中迅速发展,成为医疗行业的重要组成部分。随着移动设备普及率的提高,人们越来越多地使用智能手机和平板电脑来管理和监测健康状况。未来,这种趋势将继续增长,并且我们可以期待移动电子健康应用程序的需求将更加多样化和复杂化。 在开发移动电子健康应用程序时,HTML5是一种值得探索的开发平台,尤其是在C语言环境下。HTML5是一种现代化的标记语言,为开发者提供了许多新的功能和工具,可以用于构建各种移动应用程序。 首先,HTML5具有跨平台的优势。无论是在iOS、Android还是其他操作系统上,HTML5应用程序都可以进行开发和运行,这为开发者带来了更广泛的受众基础。它还不需要任何额外的插件或软件,使得应用程序更容易被用户接受和使用。 其次,HTML5提供了丰富的多媒体支持。移动电子健康应用程序可能需要展示各种类型的健康数据,如图表、图片和视频等。HTML5的多媒体功能可以帮助开发者在应用程序中轻松地集成这些元素,以便于用户更好地理解和管理自己的健康状况。 此外,HTML5还具有良好的互联互通性。它可以与云计算技术和其他网站服务进行集成,使用户能够轻松地访问和共享健康数据。这种互联互通性为医疗行业提供了更多的合作机会,促进了移动电子健康应用程序的进一步发展。 总之,HTML5作为移动电子健康应用程序的开发平台具有巨大的潜力。它跨平台、提供多媒体支持和良好的互联互通性,能够满足不断增长的移动电子健康应用程序需求。在未来,我们可以期待HTML5在C语言环境下的应用得到更多的开发和创新。 ### 回答2: 移动电子健康应用程序的未来:探索HTML5用于C语言的开发。 移动电子健康应用程序的未来十分看好,而HTML5为C语言的开发提供了许多新的机遇。HTML5是一种用于构建网页和Web应用程序的标准技术,它的灵活性和可移植性使其成为移动电子健康应用程序开发的有力工具。 首先,HTML5提供了更丰富的用户体验。通过使用HTML5的标准化元素和功能,开发人员可以创建更具吸引力和直观的移动电子健康应用程序。这意味着用户可以更轻松地浏览内容、交互和操作移动电子健康应用程序,从而提高了其使用的便利性。 其次,HTML5的跨平台特性使得开发和部署移动电子健康应用程序更加容易。传统上,C语言被广泛用于移动应用开发,而使用HTML5可以将移动电子健康应用程序轻松地跨平台到不同的设备和操作系统上。这样,开发人员可以更快速地将应用程序推向市场,提高了开发的效率和可扩展性。 此外,HTML5还提供了强大的图形和多媒体处理能力。移动电子健康应用程序通常需要处理复杂的图表、图像和视频等内容,而HTML5提供了丰富的图形和多媒体功能,使开发人员能够更直观地展示和处理这些数据。这对移动电子健康应用程序的可视化和数据分析非常重要。 然而,HTML5也存在一些挑战。与传统的原生应用程序相比,HTML5应用程序可能性能略逊一筹。此外,开发过程中需要考虑设备的兼容性和安全性等问题,以确保移动电子健康应用程序的可靠性和安全性。 总体来说,随着移动电子健康应用程序市场的不断增长和HTML5技术的发展,HTML5用于C语言的开发在未来将发挥重要作用。开发人员可以利用HTML5的灵活性、可移植性和丰富的功能,创建更具吸引力和易用性的移动电子健康应用程序,从而为用户提供更好的健康管理体验。 ### 回答3: 移动电子健康应用程序的未来:探索HTML5用于C 移动电子健康应用程序开发一直是关注的热点,随着技术的不断进步和人们对健康的关注度增加,我们可以预见未来的发展方向。HTML5是一种流行的开发技术,已广泛应用于Web应用程序开发中。那么,将HTML5与C语言结合,是移动电子健康应用程序开发领域的一大趋势。 首先,HTML5具有跨平台的特点。移动电子健康应用程序在不同的操作系统和设备上运行,兼容性是一个重要的问题。HTML5可以跨平台运行,不受特定操作系统或设备的限制,使得开发人员可以更加便捷地创建应用程序。 其次,HTML5具有丰富的功能和交互性。移动电子健康应用程序需要展示各种健康数据、提供交互操作和界面,以及实时更新数据等功能。HTML5提供了多种元素和API,开发人员可以根据需求自由定制用户界面,并实现与用户的交互操作。此外,HTML5还支持多媒体和实时通信,可以提供更丰富的用户体验。 再次,HTML5支持离线应用程序。对于移动电子健康应用程序来说,有时在没有网络连接的情况下,用户仍然希望能够使用一些功能和数据。HTML5提供了离线存储和缓存功能,可以将应用程序的核心功能和数据缓存到本地,使得用户在离线情况下仍然能够访问和使用一部分功能。 最后,HTML5具有不断更新和发展的潜力。随着技术的进步,HTML5的功能将不断增强,开发人员可以充分利用这些新特性来提升移动电子健康应用程序的性能和体验。 综上所述,HTML5与C语言结合是移动电子健康应用程序开发的未来趋势。通过使用HTML5,开发人员可以实现跨平台、丰富功能、离线支持等优势,提供更好的用户体验和便捷的开发方式,推动移动电子健康应用程序的发展。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值