旷视张祥雨：从基础科研的「大」和「统一」，看视觉AI研究新趋势

最新推荐文章于 2024-10-12 22:21:30 发布

深度学习技术前沿

最新推荐文章于 2024-10-12 22:21:30 发布

阅读量124

点赞数

文章标签：算法大数据机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NDExMzE5Nw==&mid=2247522136&idx=2&sn=ca8de79abe841eaf29d9d76fc8b7e6e4&chksm=fc4d2d1acb3aa40cdb9e25db305205de823eca4de8eceb21810daf003c26fd0e236e1051e9b7&scene=126&&sessionid=0

版权

来源：机器之心

基础模型科研是 AI 创新突破的基石，每一代基础模型的突破都极大程度地促进了视觉 AI 的发展。7 月 15 日，2022 旷视技术开放日（MegTech 2022）在京举行，旷视研究院基础科研负责人张祥雨在会上分享了他对基础模型科研的深入思考及基础模型组的最新科研成果。

张祥雨表示，「“大”和 “统一” 是当今视觉 AI 基础研究的新趋势。同时，“在致力于解决人工智能最本质难题的道路上，旷视将秉持原创、实用和本质的科研价值观，重点深耕通用图像大模型、视频理解大模型等四个主要方向。」

旷视研究院基础科研负责人张祥雨在旷视技术开放日上发表演讲

发挥 “大” 的威力，推进大模型、大算法与大应用协同发展

“大”主要指 AI 大模型，即利用大数据、大算力和大参数量，提高模型的表达能力，使得 AI 模型能够适用于多种任务、多种数据和多种应用场景。张祥雨指出，「“大”是提高 AI 系统性能的最重要捷径之一。这主要是因为，AI 视觉系统通常要面对复杂的应用场景和多种任务，提高模型性能的最直接途径就是提高模型本身的表达能力，也就是所谓的“大”。」

但在做 “大” 的过程中，随着模型参数量和数据量的增多，边际效应递减情形却时有发生。如张祥雨所言，“大并不一定代表着好，更大的模型会带来更大的计算开销，我们的收益将会非常有限。” 换言之，片面追求大参数量、大计算量和大数据量，并不一定能够得到性能更强的模型。视觉 AI 基础研究不仅需往 “大” 的方向努力，更要让 “大” 模型的优势能发挥出来，这是当今 AI 视觉研究主要的趋势和挑战之一。

AI 视觉研究面对着如何让 “大” 模型优势发挥出来的挑战

为此，旷视以创新算法充分发挥大数据、大算力威力，持续拓展 AI 认知边界，重新定义 “大” 的内涵：即大模型、大算法与大应用。

大模型。要研究的不仅是如何实现“大”，更重要的是如何发挥大模型背后的威力；
大算法。大模型需要大量基础设施、算法、算力做支持，要成功地将这些大模型、大算法、大算力及大数据整合起来，就要求研究者提出创新算法以充分发挥大模型的作用；
大应用。大模型做出来以后，究竟能干什么？如何提高 AI 模型的生产效率？提高模型性能？

“统一”AI 系统设计，打造简单、强大、通用系统

近年来，包括基础模型研发、视觉基础应用、AI 算法演化等在内的研究领域都衍生出一系列算法，而这些算法正在底层走向统一。例如，在基础模型方面，过去有各种各样的 CNN 和 ViT 被提出来。但近年的研究表明，通过特定的优化算法能够在训练过程中增加先验，使得 CNN、ViT、MLP 都取得相似的性能，这就为“统一”AI 系统设计奠定了基础。

“统一”的好处是显而易见的。如果能用统一算法、统一模型来表示和建模各种数据、各种任务，研究界将可以得到简单、强大且通用的系统。张祥雨解释称，「一旦模型统一，AI 加速器的设计就会非常简单，一个模型可以适用于各种设备和各种任务，这可以极大地节省模型适配成本，且硬件计算平台厂商只用支持少量算子就能把大部分任务跑起来。」

但实现 “统一” 的挑战亦是显著的。比如，要实现在多个任务上共享一个模型、一个算法，就必须加深对系统及模型的认识以抽象出共性，才能使 “统一” 模型达到专为所有系统单独设计的模型所具有的性能。

为此，旷视认为“统一”AI 系统设计要从以下三方面着手：

要统一架构。主要是指基础模型架构，也包括基本的计算架构；
要统一算法。用尽可能统一的算法来支持各种任务、数据和平台，从纷繁的 AI 调参中解放出来；
要统一认知。唯有从算法中抽取共性，理解本质，才能构建统一的、高性能的视觉 AI 系统。

立足四大重点方向，旷视秉持原创、实用与本质科研价值观

基于 “大” 和“统一”是当今视觉 AI 基础研究新趋势的判断，张祥雨在演讲中指出，旷视基础模型科研工作重点关注如下四个主要方向：

通用图像大模型。在这项研究中，旷视主要着眼于构建通用、统一、高性能的图像视觉大模型，解决如何高效变 “大” 的问题。如上所述，“大”不意味着好，故需要研究让 “大” 真正服务于 “性能提升、孵化应用” 的创新方法。

视频理解大模型。基于此方向，旷视期望在视频理解与视频建模问题上攻克困扰业界已久的长序列建模问题，并找到更高效的视频模型训练、监督和应用方法。

计算摄影大模型。当前，计算摄影常通过图像退化模式进行建模，实现高质量图像生成。这种建模思路不能使用、整合大数据的威力，也无法实现多模组、多设备、多数据之间的通用。因此，旷视希望找到计算摄影大模型研究的新范式，从大数据中找到充分的真实图像先验信息，进而指导我们生成更加高清、高质量的图像。

基础模型科研需要坚持长期主义

自动驾驶感知大模型。在这项研究中，旷视主要着眼于研究简单、高效、统一且易于使用的自动驾驶模型的优化、训练和部署方法。

演讲尾声，张祥雨再次阐释了旷视基础模型科研始终秉持的科研价值观，“坚持长期主义，坚持原创、实用和本质的价值观。”他认为，只有立足原创，才能突破现有技术的认知边界；只有做到实用，才能把科研成果真正转化为产品，转化为实际可以落地的价值；只有发现本质，才能从纷繁的表象中看到模型背后的创新点，更好地实现 “大” 且“统一”的基础模型研发。