10分钟搞清楚大模型

麻辣排骨面

已于 2024-05-09 20:12:55 修改

阅读量946

点赞数 13

文章标签：人工智能安全

于 2024-04-08 15:36:22 首次发布

本文链接：https://blog.csdn.net/ytt0523_com/article/details/137511353

版权

为什么这个视频值得分享，我觉得内容非常精要，准确权威而且通俗易懂。简要介绍下Andrej: 他在斯坦福大学获得了计算机科学博士学位，师从著名的计算机科学家、人工智能研究员李飞飞教授。研究主要集中在深度学习、卷积神经网络和计算机视觉领域。曾在Google Brain 实习，参与了 TensorFlow 的开发。此外，他还是一位著名的开源软件贡献者。

大语言模型的文件

实际上，如果你下载一个大语言模型到你的电脑上，而这个大模型的文件却非常简单，它只有两个文件：

1.参数文件：

参数文件含了训练出来的参数，这些参数在模型训练过程中，通过预测任务去“学习”（可以理解为预测+压缩）大量的知识。以开源大模型llama-2-70b为例，它的参数文件大概在140GB。

2.运行文件

运行文件负责运行神经网络，可以是C、Python或任何其他编程语言编写的代码。以开源大模型llama-2-70b为例，它的运行文件代码只有500行C语言。

确实就是这么简单，你只需要这两个文件，就可以在你的电脑无需上网的情况下运行一些开源大模型。（当然你的电脑配置将决定你可以离线运行的一些大模型版本）

大模型 LLM 是什么？ChatGPT的核心技术

大模型即Large language Model，即大型语言模型的缩写简称。

它是目前最热门的ChatGPT等人工智能工具背后最核心的技术。

大型语言模型是一种神经网络，一种最简单的理解即它总是可以根据给定的文本生成下一个单词的概率，反复运用此方法，它就输出了成体系有条理的句子和内容了。它对下一个单词的预测取决于给定的内容和在此对话中的上下文，它能识别其中的重点，可以通过给定不同的输入来生成不同类型的输出，例如代码、诗歌、文章等。

视频中举了一个例子，例如我们给出“猫坐在”的上文，让机器来预测后面可能出现的文本。

基于神经网络，它预测“猫坐在”后面接着“地毯上”。

神经网络是什么？Neutral Network

神经网络实际上是借鉴了人大脑的神经结构的机器学习算法，一种通俗的解释可以是：我们想象一下虽然我们人的决策思考都非常复杂，但是实际上我们大脑的神经传递信号的方式却非常简单，就是每个神经元之间通过递质传递信号来完成异常复杂的判断，每两个神经元之间的信号有不同的强弱。

我们大脑中有一个神经元组成的网络来传递信号。这就使得一个简单的刺激，例如我们看到红色，眼睛接受视觉信息输入，转化为电信号，通过视觉神经传到中枢系统，我们判断是危险的红色信号，还是吸引人的红色，再通过神经网络不同神经元的传递，最终给行动系统发出指令，我们是逃避还是靠近（输出）。

神经网络的算法设计类似，神经元就是它的权重和偏置项，这些每个权重和偏置项就构成了神经网络的参数。

大模型的表现取决于参数数量和训练文本数量

其实原本神经网络就已经存在很多年并且被大家一直在利用解决很多例如自然语言处理，图像识别等等问题。而ChatGPT的横空出世，是因为大家发现当把参数加大比之前要大得多的程度，这时AI产生了智能涌现，也就是说好像这个AI一夜长大，它的智能得到了极大的提升，它变得通用起来。ChatGPT4的参数数量目前在1.8万亿个（之前的ChatGPT3的参数在1750亿个），Meta Facebook母公司发布的开源大语言模型LLama目前参数为2700亿。

从目前来看，参数量越大，训练文本数量越多，大模型的智能表现越好，并且目前还没有显示到顶的迹象。我们最终期待的是大语言模型带来的在所有知识领域的真正通用能力。

下图显示的是GPT4和GPT3.5在人类的不同官方测试中的得分对比，我们可以看到GPT4的泛化能力，之前的GPT3.5蓝色条（集中在一些领域有优势，得分高），而GPT4绿色条（在很多领域表现都很出色）展现得更加通用了。

模型的训练过程

大型语言模型的训练需要大量的计算资源和数据，通常需要数千个GPU和数10TB的文本。所以它的训练是十分昂贵的。这也是为何很多大佬在屯显卡GPU，因为它的训练需要十分强大的GPU。算个小帐，如果使用6000个GPU训练12天，那么花费在200万美金左右。

大型语言模型的训练分为两个阶段：预训练和微调

阶段1：预训练 - 在互联网文本上训练语言模型，使其具有通用的知识和能力

在此阶段，下载训练所需的文本

获取你的GPU资源

把文本压缩进神经网络，支付资源费用，进行训练

最终你得到一个基座模型Base model

阶段2：微调 - 在特定的任务数据上训练语言模型，使其具有特定的目标和风格

撰写标注指南

雇佣数据标注人员，收集高质量的理想问答，并进行比较

基于这些数据微调基座模型，等一天

获得助手模型Assistant model

进行验证

部署

监控，收集错误行为，重新回到预训练。

基本上一个大语言模型的产生就是以上步骤的反复。一般预训练的间隔是以年为单位，因为它成本很高，而微调的间隔则可以以周为单位来进行，它更加灵活，成本低。

大语言模型类比操作系统

当前大语言模型只具有快思考，未来它需要发展慢思考

快思考，慢思考概念来自诺贝尔经济学获得者丹尼尔卡尔曼的著作：思考，快与慢。他把人的一些本能的反应式的思考方式称为快思考，例如你开车时遇上危险的临场反应，或者守门员在球过来时的即刻响应，他们都不可能经过深思熟虑，而是长久的训练导致的快速反应。而慢思考相反，它是我们在考试时，或者面对一个复杂问题时的思考方式，我们会分析，假设，推测，判断，行动，等待反馈，调整行动的复杂过程。

当下的大模型在作者看来，还仅仅只是使用快思考，它接受用户的输入内容，即可做出反应，它还不能深思熟虑的处理复杂问题，或者等待一些自己的假设验证后再继续行动，例如决策树式的能力机制是目前大模型还不具备的。

那么接下来的大模型发展，一方面多模态的成熟，一方面AI agent发展，大模型借助行动能力，可以在决策树的慢思考上继续发展。

它更像OS，可以执行各种程序和命令，提供各种服务和功能，而不像应用

所以作者认为大语音模型更像操作系统，而不是应用。所以他认为ChatGPT的发展方向类似操作系统OS：

• 它就其他OS一样可以执行各种程序和命令，提供各种服务和功能，只是之前执行各种程序和命令是由人来操作，未来它自己可以执行。
• 大型语言模型与操作系统的区别是它们是基于数据和概率的，而不是基于逻辑和确定性的
• 大型语言模型与操作系统的联系是它们都需要界面、应用、安全、标准等方面的发展和协作

大型语言模型也会有开源系统，闭源系统

大语言模型也会和传统操作系统发展类似，会有类似windows，MacOS这类封闭的个人用系统，也有基于Linux的各种开源系统，和基于此开源系统发展的各种专业系统。

我们可以想见当下例如ChatGPT，Bard，Claude-3这类都是闭源系统，而基于Meta的llama大语言模型会发展很多的开源系统。

操作系统的安全问题同样会困扰大模型

最后作者讲到大语言模型同样面临多种安全问题。

• 病毒植入
• 欺骗AI的攻击
• 有害数据的植入
• 后门攻击
• 等等，围绕操作系统的安全攻防战依然会再次上演。

大模型岗位需求

大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

-END-

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

麻辣排骨面

关注

13
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
10分钟搞清楚大模型

为什么这个视频值得分享，我觉得内容非常精要，准确权威而且通俗易懂。简要介绍下Andrej: 他在斯坦福大学获得了计算机科学博士学位，师从著名的计算机科学家、人工智能研究员李飞飞教授。研究主要集中在深度学习、卷积神经网络和计算机视觉领域。曾在Google Brain 实习，参与了 TensorFlow 的开发。此外，他还是一位著名的开源软件贡献者。
复制链接

扫一扫