盘点2024主流大模型

最新推荐文章于 2024-09-19 09:22:04 发布

agi大模型

最新推荐文章于 2024-09-19 09:22:04 发布

阅读量917

点赞数 17

文章标签：盘点2024主流大模型大模型都有哪些

本文链接：https://blog.csdn.net/weixin_49892805/article/details/141895290

版权

文章目录

前言
零基础如何学习大模型 AI
资料领取

前言

大模型时代，开源与闭源模型不断涌现，大模型为AI领域注入了新的活力，基于开源大模型的应用如雨后春笋般出现，同时也为研究者和开发者提供了更广阔的创新空间。在此，梳理当前国内外主流的大模型分类，并赋予简单介绍。

在这里插入图片描述

1. 闭源大模型

在这里插入图片描述

l ChatGPT

机构： OpenAI

简介：ChatGPT，是OpenAI 研发的一款聊天机器人程序，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够基于在预训练阶段所见的模式和统计规律，来生成回答，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写论文、邮件、脚本、文案、翻译、代码等任务。

l Claude

机构： Anthropic

简介：美国人工智能初创公司Anthropic发布的大型语言模型家族，拥有高级推理、视觉分析、代码生成、多语言处理、多模态等能力，该模型对标ChatGPT、Gemini等产品。

l 文心一言

机构：百度

简介：百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言从数万亿数据和数千亿知识中融合学习，得到预训练大模型，在此基础上采用有监督精调、人类反馈强化学习、提示等技术，具备知识增强、检索增强和对话增强的技术优势。

l 盘古大模型

机构：华为

简介：盘古大模型，是华为旗下的盘古系列AI大模型，包括NLP大模型、CV大模型、科学计算大模型。

l 日日新

机构：商汤

简介：日日新（SenseNova），是商汤科技宣布推出的大模型体系，包括自然语言处理模型“商量”（SenseChat）、文生图模型“秒画”和数字人视频生成平台“如影”（SenseAvatar）等。

2. 半开源大模型

在这里插入图片描述

大部分开源模型并非全面开源，现在的大部分开源模型事实上为半开源，缺少参数权重和训练数据等，相比与闭源大模型开放了模型本身与源码。

l Llama

机构： Meta

简介：Llama是由元宇宙平台公司（Meta）推出的大模型，参数规模从70亿到700亿不等，随着“被开源”成为了开源模型的主力。

l Gemma

机构： Google

简介：Gemma是谷歌宣布推出的一款新的 AI 语言模型系列。这个系列模型不仅免费、开源，而且采用了与谷歌更为强大的 Gemini 模型类似的技术。不同于 Gemini，Gemma 模型可以在个人电脑上本地运行，是自 OpenAI 的 ChatGPT 在 2022 年引发 AI 聊天机器人热潮以来，谷歌首次发布的重要开源 LLM。

l Qwen

机构：阿里云

简介：通义千问是阿里云研发的通义千问大模型系列模型，参数规模从18亿到720亿不等。数据集包括文本和代码等多种数据类型，覆盖通用领域和专业领域，能支持8K的上下文长度，针对插件调用相关的对齐数据做了特定优化，当前模型能有效调用插件以及升级为Agent。

l ChatGLM

机构：智谱AI

简介：中文领域效果最好的开源底座模型之一，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持。

l Baichuan

机构：百川

简介：由百川智能推出的新一代开源大语言模型。

3. 开源大模型

在这里插入图片描述

完全开源的大模型包括参数权重和训练数据的开源，目前还比较少。

l OLMo

机构： AllenAI

简介：OLMo的独特之处是完全开源，除了训练的模型，OLMo还开源了训练数据，训练代码以及模型评估代码。

l GPT-NeoX

机构： EleutherAI

简介：GPT-Neox，一个由社区驱动、专为高性能计算设计的大规模语言模型。EleutherAI是一个致力于开放研究和教育的组织，因此GPT-Neox是完全开源的，包括参数权重和训练数据的开源。

零基础如何学习大模型 AI

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…
学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。