AI大模型:国内外大模型发展情况梳理

20221130OpenAI发布ChatGPT**,随即引爆社交网络,大模型行业进入加速发展阶段。国外基础模型实力强劲、不断精 进,开源模型打造庞大应用生态,端侧模型小而美。国内大模型也进入加速成长期,在过去一年中取得了实质性突破。百度文心一言、 讯飞星火、清华智谱ChatGLM4、商汤“日日新SenseNova5.0”整体表现逼近GPT-4,开源模型快速进步,文生视频、文生音乐等多模态 也取得突破。国内大模型网页流量和应用下载量节节攀升,大模型已经成为日常生活中的重要助手。**

国外大模型持续领跑,闭源、开源、端侧模型异彩纷呈

国外大模型主要分为三个层级:性能强劲的闭源模型,具备生态优势的开源模 型,以及专注端侧应用的轻量模型。国外基础模型能力持续提升,闭源模型中巨头各显其才。GPT-4性能卓越,始终处于领跑地位, GPT-4o模型实现端到端信息处理,人机交互体验大幅提升;Claude 3后起之秀,整体性能十分强劲;原生多模态大模型Gemini,多模态能 力、跨模态能力取得突破。开源模型领域中,LLama2模型塑造了庞大的开源模型家族,LLama3能力大幅提升;Mixtral 8x7B为开源领域 引入专家混合技术,成为开源模型的重要力量。端侧应用需要在轻量参数和模型性能之间平衡,Phi-3、Gemma2实现轻量级模型的小而 美。国外闭源模型有望迎来突破,我们预期GPT-5或于近期发布,性能改进超预期。

国内大模型进入性能提升的关键时期,模型应用逐步铺开。2022年11月30日OpenAI发布ChatGPT,随即引爆社交网络。国内大模型也进 入加速成长期,在过去一年中取得了实质性突破。国内第一梯队的大模型整体能力目前已经逼近GPT-4,部分模型中文能力与GPT-4相差 无几。百度文心大模型4.0整体性能优异,成为首个国内面向C端收费的大模型产品;科大讯飞星火大模型V3.5性能逼近GPT-4,6月27日 模型即将再度更新;清华智谱ChatGLM4基础模型性能强劲,大模型生态全面对标OpenAI;商汤“日日新SenseNova5.0”大模型,其主流 客观评测指标达到或超越GPT-4 Turbo。开源模型阵营中,存在通义千问、百川智能实力强劲的竞争对手。多模态模型中,国产大模型同 样进展不断,国产文生视频大模型Vidu发布,对标Sora持续迭代;昆仑万维发布文生音乐大模型天工Skymusic,整体表现不输Suno。国内 大模型网页流量和应用下载量节节攀升,安卓应用商店中豆包累计下载1.47亿,讯飞星火累计下载1.06亿,大模型已经成为日常生活中的 重要助手。

在这里插入图片描述

国内大模型发展情况

2022年11月30日,OpenAI发布ChatGPT,随即引爆社交网络。国内大模型也进入加速成长期,在过去一年中取得了实质性 的突破。国内大模型的发展大致可以分为三个阶段,即准备期(2022.12-2023.02)、成长期(2023.02-2023.23)、爆 发期(2023.12-)。

在这里插入图片描述

国内大模型分布情况

在这里插入图片描述

国内大模型快速逼近GPT-4

国内第一梯队的大模型整体能力目前已经逼近GPT-4,部分模型中文能力与GPT-4相差无几。5-6月,国内多家大模型将 迎来版本更新,今年年中是国内大模型的关键赛点,预期我们将见到部分头部大模型整体能力上超越GPT-4。

在这里插入图片描述

国内大模型能力测试

客观评价大模型能力存在一定的难度,不同的模型测试可能考察了模型不同维度的能力,因而模型之间的性能比较在不 同测试中可能表现不一致,同时大模型的每次响应同样存在不确定性,增加了大模型的测试难度。

结合不同机构的第三方测试,我们大致可以知晓模型之间的性能差异。GPT-4展现出强大的语言理解、生成和推理能力, 在各类测试中均保持领先地位。各类评测中模型表现可能略有不同,但是国内第一梯队的大模型整体能力目前已经快速 逼近GPT-4。国内大模型发展迅速,与GPT-4差距快速缩小,第一梯队的头部大模型例如ChatGLM4、百度文心一言4.0、 讯飞星火V3.5整体表现已经接近GPT-4,在中文领域,国内部分模型表现已经可以比肩GPT-4。

在这里插入图片描述

百度文心一言4.0

11月1日,百度正式上线文心一言专业版,技术持续升级。文心一言大模型专业版基于公司最新自研的文心大模型4.0, 与原有的3.5版本相比,具有以下优势:1)更强的模型能力和图片生成能力。根据测试,文心大模型4.0版本在理解、生 成、逻辑、记忆四大功能上都有明显提升,具有显著优化的模型性能。2)支持接入丰富的API插件,可以实现撰写代码、 润色文案、设计与绘图等多种功能。

文心一言成为首个国内面向C端收费的大模型产品。文心一言专业版的分为单独订阅和联合会员两种收费模式。单独订 阅模式下,会员月付59.9元,选择连续包月可以享受49.9元的优惠价格;该模式下会员可以使用文心一言大模型3.5和 4.0两个版本,而非会员只可使用免费的文心大模型3.5版本。联合模式下,用户月付99元,可以同时具有单独订阅模式 的全部功能,并获得文心一格白银会员资格,享受AI修图改图等功能。

在这里插入图片描述

科大讯飞星火大模型V3.5

1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。讯飞发布基于首个全国产算力训练的讯飞星火V3.5,七大核心 能力全面提升,语言理解、数学能力、语音交互能力超过 GPT-4 Turbo,代码达到 GPT-4 Turbo 96%,多模态理解达到 GPT-4V 91%。

4月26日,讯飞星火大模型V3.5春季上新,发布长文本、长图文、长语音大模型。不仅可以快速学习各种来源的海量文本、 图文资料、会议录音,还能够针对多种多样的行业场景给出专业、准确回答。此外,星火语音大模型本次更新还包括多 情感超拟人合成功能,具备情绪表达能力,并推出一句话声音复刻功能。

讯飞正式启动对标GPT-4的大模型训练,2024年上半年对标GPT-4,要走独立的技术路线和产业方向,形成完整产业生态。

在这里插入图片描述

清华智谱ChatGLM4

1月16日,2024年度技术开放日Zhipu DevDay,智谱AI发布了新一代基座大模型GLM-4。在大规模多任务语言理解评测中, GLM-4的表现明显优于GPT-3.5,其平均得分已经达到了GPT-4的95%水平,在某些特定任务上甚至表现相当;

GLM-4具备强大的多模态能力:文生图和多模态理解能力得到增强,CogView3在文生图多个评测指标上,相比DALLE3约 在91.4%-99.3%的水平之间。

GLM-4推出的All Tools能力:GLM-4能自主理解和执行复杂任务,调用浏览器、代码解释器等完成复杂工作。

个性化智能体功能:用户可以通过智谱官网轻松创建属于自己的GLM智能体,实现大模型开发定制。

在这里插入图片描述

商汤日日新SenseNova5.0

4月23日,商汤科技在技术交流日上发布全新升级的“日日新SenseNova5.0”大模型,其主流客观评测指标达到或超越 GPT-4 Turbo。日日新5.0模型能力提升一方面得益于采用混合专家架构(MoE),激活少量参数就能完成推理,且推理 时上下文窗口高达200K左右;另一方面来自海量的训练数据,其训练数据超过10TB tokens、覆盖了数千亿量级的逻辑 型合成思维链数据。

商汤多模态大模型的图文感知能力达到全球领先水平,在权威综合基准测试MMBench中综合得分居首位,在多个知名多 模态榜单MathVista、AI2D、ChartQA、TextVQA、 DocVQA、MMMU均取得优异成绩。

在这里插入图片描述

百川智能Baichuan

1月29日,百川智能发布超千亿参数的大语言模型 Baichuan 3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval 中,Baichuan 3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval 和MBPP中同样表现出色,证明了 Baichuan 3在自然语言处理和代码生成领域的强大实力。

Baichuan 2是百川智能推出的开源大语言模型,采用2.6万亿Tokens的高质量语料训练。Baichuan 2在多个权威的中文、 英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含7B、13B的 Base和Chat版本,并提供了Chat版本 的4bits量化。

在这里插入图片描述

通义千问Qwen打造丰富的开源大模型矩阵

通义千问2023年4月问世以来,专注于基础模型的技术研发,从初代模型升级至2.5版本。相比上一版本,2.5版模型的理 解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%,中文能力持续领先。

今年2月初,通义千问团队推出开源模型系列Qwen1.5,随后在不到3个月的时间连续开出8款大语言模型,模型参数规模涵 盖5亿、18亿、40亿、70亿、140亿、320亿、720亿、1100亿,打造了丰富的开源模型矩阵。能力最强的Qwen1.5-110B在 MMLU、TheoremQA、GPQA等多个基准测评中展现出卓越性能,基础能力可与Meta的Llama-3-70B模型相媲美。

在这里插入图片描述

字节跳动“豆包”大模型

5月15日,字节跳动正式对外发布豆包大模型,豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮 演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型模型等,这些模型已接入 抖音、番茄小说、飞书、巨量引擎等50余个业务。

豆包主力模型定价0.0008元/千Tokens,一元钱能买到豆包主力模型的125万Tokens,约200万汉字,极具价格竞争力。

苹果APP Store和各大安卓应用市场,豆包APP的下载量在AIGC类应用中排名第一,豆包上已有超过800万个智能体被创建, 月度活跃用户达到2600万。

在这里插入图片描述

月之暗面Kimi智能助手上下文长度突破200万字

MoonshotAI提供超长记忆AI助手Kimi。23年10月,月之暗面推出可支持20万字无损上下文长度的智能助手Kimi,具备显 著的中文优势,能够为用户提供智能搜索、回答问题、速读文件、整理资料、激发灵感、辅助创作等服务,上下文长度可 以达到Claude 100k的2.5倍、GPT-4-32k的8倍。

Kimi智能助手使用方便,新版Kimi与之前版本相比在相同设备和成本的情况下模型响应速度提升了3倍左右。

Kimi推出应用商店Kimi+。首批上线共5大类23个Kimi+,覆盖了很多常用的场景。五大类主要包括官方推荐、办公提效、 辅助写作、社交娱乐、生活实用,不同的Kimi+ 可以用来解决不同的问题,包括写提示词、写文章、搜索资源等等。

在这里插入图片描述

Deepseek-V2具备较强的推理成本优势

深度求索Deepseek发布了v2版本的模型,沿袭了Deepseek-MoE(混合专家模型)的技术路线,采用大量的小参数专家进 行建模,同时在训练和推理上加入了更多的优化。Deepseek对模型进行了完全的mit协议开源,可以商用。

Deepseek V2模型参数量达到236B,同时由于模型小专家混合的特性,模型每个token在推理时的激活参数为21B,可以实 现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面,相比V1的稠密模型, V2模型节约了42.5%的训练成本,减少了推理时93.3%的 KV-cache 显存占用,将生成的吞吐量也提升到了原来的5.76倍。

Deepseek-V2在众多开源模型中表现仅次于70B 的 LLaMA3,超过了他们此前发布的V1代67B的非MoE模型。

在这里插入图片描述

国内多模态模型相关进展

国产文生视频大模型Vidu发布,对标Sora持续迭代

**国产文生视频大模型****Vidu正式发布,实现重大技术突破。**4月27日,国产AI视频大模型Vidu发布。Vidu是由清华大学和 生数科技联合开发的中国首个长时长、高一致性、高动态性视频大模型。它不仅能够精确模拟现实世界的物理特性,还 具备强大的创新能力。Vidu能够制作出具有多个镜头视角的视频内容,并且在不同镜头之间保持高度的时空连贯性。目 前Vidu能够实现一键生成长达16秒、1080P高分辨率的高清视频。

**Vidu采用独创U-ViT架构,正在加速迭代。**Vidu采用了一种独创的架构——U-ViT,该架构融合了Diffusion技术和 Transformer技术。其核心技术U-ViT架构由团队于2022年9月提出,其Diffusion与Transformer融合的架构完全由团队自 主研发。

在这里插入图片描述

国产文生音乐大模型天工Skymusic

天工SkyMusic基于昆仑万维天工3.0超级大模型打造,采用了音乐音频领域的类Sora架构,是目前国内唯一公开可用的 AI音乐生成大模型。天工SkyMusic采用音乐音频领域类Sora模型架构,Large-scale Transformer负责谱曲,来学习 Music Patches的上下文依赖关系,同时完成音乐可控性;Diffusion Transformer负责演唱,通过LDM让Music Patches 被还原成高质量音频,使得天工SkyMusic能够支持生成80秒44100Hz采样率双声道立体声歌曲。

天工SkyMusic具备高质量AI音乐生成、人声“以假乱真”、歌词段落控制、多种音乐风格、歌唱技巧学习等特点。目前 Skymusic已经开启公测,所有用户可以免费使用。

在这里插入图片描述

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
      - L1.4.1 知识大模型
      - L1.4.2 生产大模型
      - L1.4.3 模型工程方法论
      - L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
      - L2.1.1 OpenAI API接口
      - L2.1.2 Python接口接入
      - L2.1.3 BOT工具类框架
      - L2.1.4 代码示例
    • L2.2 Prompt框架
      - L2.2.1 什么是Prompt
      - L2.2.2 Prompt框架应用现状
      - L2.2.3 基于GPTAS的Prompt框架
      - L2.2.4 Prompt框架与Thought
      - L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
      - L2.3.1 流水线工程的概念
      - L2.3.2 流水线工程的优点
      - L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
      - L3.1.1 Agent模型框架的设计理念
      - L3.1.2 Agent模型框架的核心组件
      - L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
      - L3.2.1 MetaGPT的基本概念
      - L3.2.2 MetaGPT的工作原理
      - L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
      - L3.3.1 ChatGLM的特点
      - L3.3.2 ChatGLM的开发环境
      - L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
      - L3.4.1 LLAMA的特点
      - L3.4.2 LLAMA的开发环境
      - L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值