通用视觉大模型调研

本文概述了多项旨在提升人类中心感知、通用模型和多任务学习效率的研究,包括共享与任务特定组件的设计、Transformer架构的应用、模态融合与自监督学习方法,以及针对梯度平衡和动态优先级的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

humanbench

  • HumanBench: Towards General Human-centric Perception with Projector Assisted Pretraining;
  • 为了解决不同任务之间的conflict以及不同dataset之间的差异(相同任务),提出PATH,backbone是所有任务共享、projector是任务级别共享的、head是dataset级别共享的,也就是普通多任务+task specific projector+dataset specific head;
  • projector: attention module(channel atten(senet) + spatial atten(self atten))(atten feature of specific task) + gate module(fuse featrue of different layer);
    在这里插入图片描述

UniHCP

  • UniHCP: A Unified Model for Human-Centric Perceptions
  • transformer encoder不分任务提取特征
  • transformer decoder + task-specific query关注特定任务的特征
  • task guided interpreter
    在这里插入图片描述

Uni-Perceiver

  • Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks;
  • 人类通过同时处理多模态的数据来感知这个世界,这个过程是多任务的,但是当前的机器学习方法关注于一个任务,本文建立了一个统一的框架,将输入和target经过task-agnostic transformer encoder和task-specific tokenizer来将不同任务不同模态的表示统一到一个空间,之后再训练的过程中使用寻找最大相似的目标的准则进行
  • 主要解决的问题是当前的大模型针对每一个任务都有自己的head,随着任务的增加都要为其定制head以及获取对应的训练数据;
  • 整体思路是将所有的任务共性抽象出来,将输入和目标都统一到同一个空间,寻求输入和对应输出匹配的最大似然概率,此处使用余弦相似度来计算;
  • 首先将不同模态的输入数据和目标使用modality-specific tokenizer来产生token sequence,之后input token seq和target token seq都送到transformer encoder中转换到同一个空间,目标是寻求匹配的最大似然概率;
  • 针对不同数据有不同的tokenizer;
    在这里插入图片描述

Uni-Perceiver-MoE

  • Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
  • 主要解决的问题是不同的任务在general model的训练过程中会相互产生不好的影响,使用conditional MoEs来解决
    在这里插入图片描述
  • transformer原来的FFN层和linear projection层被MoEs取代,主要是一个gate操作,将部分的输出变为0,相当于选择了特定的子网络,但是是自适应的;

Florence

  • Florence: A New Foundation Model for Computer Vision
  • 主要解决的问题针对当时视觉基础模型的模态仅仅是text和image(CLIP等),扩展了模态,从小物体到大场景,从静态到动态,从单图像到加上深度图等等;由此针对增加的模态增加了新的模块来利用,以利于下游任务;
    在这里插入图片描述

FLAVA

  • FLAVA: A Foundational Language And Vision Alignment Model
  • 主要解决CLIP等cross modal模型数据不开源,现有模型单使用使用cross model或者modal fuse,无法同时应对unimoal,cross modal和multi modal的情况,在image-text对数据上提出新的训练策略
  • 分为三个部分,针对图片uni modal的transformer+针对text uni-modal的transformer+针对multimodal的损失,这样就可以同时处理单模态以及多模态任务
    在这里插入图片描述

INTERN

  • INTERN: A New Learning Paradigm Towards General Vision
  • 主要解决之前的通用模型不够通用的问题,提出了新的训练范式
  • 分为数据、网络结构以及下游任务三个部分,有down adaptation来使得任务更好的应对下游任务,主体网络部分分为三个阶段,amateur+expert+generalist
    在这里插入图片描述

M3I-pretraining

  • Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information
  • 主要针对的问题是现在有很多种训练方法,例如全监督、弱监督、自监督,有很好的效果,有一些方法通过多阶段的方式结合使用这些方法,但是这种结合使用的方式有一个问题是当整个训练流程走完以后假如结果不好,无法确定是哪一个stage的问题,提出的解决方法就是只用一个统一的stage
    在这里插入图片描述

GRADNORM

  • GRADNORM: GRADIENT NORMALIZATION FORADAPTIVE LOSS BALANCING IN DEEP MULTITASKNETWORKS
  • 主要解决的是多任务训练不好收敛的问题,可以一个损失量级大的任务占了主导地位,gradnorm调和了不同任务的损失,使不同损失的量级相同
  • 通过增加一个新的gradiant loss,这个损失的定义是每个任务的梯度和总的梯度的l1正则之和,最终得到的效果是不同任务的梯度量级相同,降低损失降低快的下降速度,提高损失降低慢的下降速度,达到调和的目的https://zhuanlan.zhihu.com/p/378533888https://zhuanlan.zhihu.com/p/570751177 ,其中第一项是单任务的损失带权梯度,第二项是不同任务的损失带权梯度,r表示的值和学习速度成反比https://zhuanlan.zhihu.com/p/470955143
  • 实现https://github.com/brianlan/pytorch-grad-norm
  • 两个损失,多任务损失和梯度损失独立更新,梯度损失是权重的函数,达到对权重更新的目的
    在这里插入图片描述

Dynamic Task Prioritization for Multitask Learning

  • 针对多任务训练,主要是动态的关注于更加困难的任务,分为两个级别,一个是样本级别,类似于focal loss,另一个是任务级别,关注于困难任务,通过指定kpi开完成,kpi取值0-1,和任务的困难程度成反比,任务的困难程度和损失的权重成正比https://zhuanlan.zhihu.com/p/71012037

Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

End-to-End Multi-Task Learning with Attention

  • https://zhuanlan.zhihu.com/p/82234448
  • 实现https://github.com/lorenmt/mtan
  • humanbench和这个很像,在共享特征之后加上了task spetial的attention模块来聚焦任务相关的特征
  • 采用dynamic weight average来决定损失的权重,和gradnorm的思路很像

Multi-Task Learning as Multi-Objective Optimization

  • 将多任务转变为多目标优化问题,Pareto optimality是指一组参数,没有另一组不同的参数会使损失值更小,非劣解是指不存在一个最优解的情况下所有的可能解,Pareto最优解——无法在改进任何目标函数的同时不削弱至少一个其他目标函数。这种解称作非支配解或Pareto最优解。
    在这里插入图片描述
  • Multiple Gradient Descent Algorithm(MGDA)来解决MTL Parato optimality

Gradient Surgery for Multi-Task Learning

  • 当不同任务的梯度方向相反的时候,将梯度更新为处理之后的梯度

MOE, MMOE, SNR, PLE, MOSE, MTDNN, ESSM

  • 工业界多任务学习
<think>好的,用户想要了解国内各家公司的AI大模型排名。首先,我需要确定用户的需求是什么。他们可能是在做市场调研,或者在选择合作伙伴,也可能是学术研究。不管怎样,用户需要的是一个综合的排名,涵盖主要公司和他们的模型。 接下来,我需要回忆国内有哪些主要的公司推出了大模型。百度、阿里、腾讯、华为这些大厂肯定有。然后是字节跳动、科大讯飞、商汤科技、智谱AI、MiniMax、零一万物等。可能还有一些初创公司,但用户可能更关注知名度高的。 然后,排名的依据是什么?通常包括技术能力、应用场景、商业化程度、开源情况、创新能力等。但用户可能想要一个综合的排名,而不是分项评估。不过直接说排名可能有主观性,需要说明这一点。 我需要先列出每个公司的模型,比如百度的文心一言,阿里的通义千问,腾讯的混元,华为的盘古,字节的云雀,讯飞的星火,商汤的日日新,智谱的GLM,MiniMax的ABAB,零一万物的Yi系列,还有百川智能和深度求索的模型。 接下来,按什么顺序排列?可能需要根据技术实力、市场影响力、应用范围来排序。百度、阿里、腾讯、华为这些大厂可能在前列,但讯飞、商汤这些专注于AI的公司也有竞争力。字节作为新入局的,但资源多,可能排名也不低。另外,像智谱AI这样的初创公司,虽然成立时间不长,但技术上有亮点,比如GLM-4。 需要注意的是,排名可能因评价标准不同而变化,比如有的模型在特定领域表现好,有的在商业化上更成功。此外,开源模型和闭源模型也有区别,比如百川和深度求索的开源模型可能在开发者中更受欢迎。 还要考虑最新动态,比如最近几个月有没有新模型发布,或者性能提升。比如讯飞的星火大模型3.5可能在某些评测中表现不错,而华为的盘古强调B端应用,可能在企业级市场有优势。 另外,用户可能想知道这些模型的特点,比如多模态能力、参数规模、应用场景等。所以在介绍每个公司时,需要简要说明其模型的特色和优势。 可能还需要提到政策和数据安全的影响,国内模型更注重中文环境和本土化需求,这也是一个优势点。 最后,要避免绝对化的排名,而是给出一个分档,比如第一梯队、第二梯队,或者按领域划分,这样更客观。同时提醒读者排名是动态变化的,可能存在主观因素,建议参考第三方评测。 总结一下,我的回答结构应该是:先说明排名的主观性和动态性,然后分公司介绍其模型和特点,最后给出一个分档排名,并建议参考具体需求选择模型。</think>国内AI大模型的竞争格局目前处于快速发展阶段,各家公司在技术能力、应用场景和商业化进展上各有侧重。由于评价标准不同(如技术性能、生态布局、行业影响力等),以下排名综合了技术实力、市场声量及实际应用情况,仅供参考(截至2024年7月): --- ### **第一梯队(综合实力领先)** 1. **百度·文心一言(ERNIE Bot)** - 优势:依托搜索引擎数据和多年NLP技术积累,多模态能力突出,已迭代至4.0版本,覆盖搜索、内容创作、企业服务等领域。 - 生态:通过“文心大模型”开放平台赋能千行百业,商业化落地广泛。 2. **阿里云·通义千问(Qwen)** - 优势:参数规模达万亿级,开源版本(如Qwen-72B)受开发者关注,与阿里云生态深度整合,在电商、金融场景表现突出。 - 动态:通义2.5版本强化逻辑推理和长文本处理能力。 3. **科大讯飞·星火大模型(Spark)** - 优势:专注教育、医疗等垂直领域,语音交互能力国内领先,星火3.5版本在多项中文评测中排名前列。 - 应用:已落地智慧课堂、医疗辅诊等场景。 --- ### **第二梯队(技术突破/垂直领域领先)** 4. **字节跳动·云雀(Lark/Doubao)** - 优势:依托抖音、头条的海量数据,擅长内容生成与推荐,C端产品“豆包”用户增长迅速。 5. **华为·盘古大模型** - 优势:聚焦B端工业场景(气象预测、矿山调度等),联合昇腾AI生态,强调行业解决方案而非通用对话。 6. **智谱AI·GLM大模型** - 优势:清华系团队背景,GLM-4在多语言、代码生成能力突出,开源生态活跃(ChatGLM系列)。 7. **商汤科技·日日新(SenseNova)** - 优势:计算机视觉技术加持,多模态生成(如视频)能力较强,布局智慧城市、自动驾驶等场景。 8. **MiniMax·ABAB大模型** - 优势:聚焦AIGC赛道,旗下“海螺AI”在长文本生成和拟人化交互体验上有特色。 --- ### **第三梯队(快速追赶/细分赛道)** 9. **零一万物·Yi系列** - 亮点:李开复团队推出,Yi-34B曾登顶HuggingFace开源榜,长上下文处理能力突出。 10. **百川智能·Baichuan** - 亮点:王小川团队主导,Baichuan2开源模型在中文数学、代码任务表现优异。 11. **深度求索·DeepSeek** - 亮点:专注模型轻量化,DeepSeek-MoE架构在推理成本控制上有创新。 12. **昆仑万维·天工(Skywork)** - 动态:3.0版本支持万字上下文,重点布局海外市场。 --- ### **评价维度补充** - **开源影响力**:智谱AI(ChatGLM)、阿里(Qwen)、零一万物(Yi)的开源模型在开发者社区接受度较高。 - **垂直领域**:医疗(医联的MedGPT)、金融(恒生的Warren)、法律(幂律的ChatLaw)等赛道涌现专业模型。 - **政策支持**:北京、上海、深圳等地政府主导的联合实验室(如北京通用AI研究院)正推动国产算力与模型协同发展。 --- ### **争议与挑战** 1. **同质化竞争**:多数大模型通用能力上趋同,差异化多依赖数据场景而非技术代差。 2. **算力瓶颈**:英伟达芯片限制下,国产算力(华为昇腾、寒武纪等)的适配仍需时间。 3. **商业化路径**:除云服务、API调用外,C端付费习惯尚未成熟,盈利模式待探索。 建议结合具体场景需求(如开源/闭源、中文理解、行业适配)选择模型,可参考权威评测(如SuperCLUE、C-Eval)的最新结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值