一口气了解大模型相关通识，基础笔记！

程序员二飞

于 2024-04-30 10:50:18 发布

阅读量732

点赞数 25

文章标签：人工智能学习 ai

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/138338557

版权

一、大模型生态有哪些

语言类大模型: GPT-3、GPT-3.5、GPT-4系列模型。并且，OpenAl在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型 (基座模型)，用于不同场景的应用;

其中，A、B、C、D模型的全称分别是ada、babbage、curie(居里)和davinci（达芬奇），四个模型并不是GPT-3的微调模型，而是独立训练的四个模型;

四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增

虽不如GPT-3.5和GPT-4那么有名，但A、B、C、D四大模型却是目前OpenAI大模型生态中功能最丰富、API种类最多的四个模型。

谷歌PaLM2 Models：四项大模型:Gecko (壁虎) 、Otter(水獭) 、Bison (野牛) 、Unicorn(独角兽)，最小的Gecko模型可以在移动端运行，并计划在下一代安卓系统中集成;

二、了解OpenAI大模型生态：

图像多模态大模型: 最新版为DALL·E (达利)V2，是DALL·E模型的第二版训练版，能够根据描述生成图像;

DALL·E模型为基于GPT-3开发的模型，总共包含120亿个参数，不难看出DALL·E对图像的理解能力源于大语言模型;

OpenAI将大语言模型的理解能力“复制”到视觉领域的核心方法: 图像类大模型底层都是基于语言类大模型，基于语义关系，将图像视作一种一种语言，将其转化为Token，并和文本Token一起进行训练;

三、语音识别模型

最新版为Whisper v2-large model，是Whisper模型的升级版，能够执行

多语言语音识别以及语音翻译和语言识别;

Whisper模型是为数不多的OpenAl的开源模型，改模型通过68万小时的多语言和多任务监督数据进行的训练，目前提供了原始论文进行方法介绍;

Whisper模型可以本地部署，也可以像其他OpenAI大模型一样通过调用API进行在线使用，并且根据官网介绍，Whisper在线模型会有额外运行速度上的优化，通过调用API进行使用，效率更高 (当然也需要支付一定的费用) ;

四、文本向量化模型

Embedding文本嵌入模型，用于将文本转化为词向量，即用-个数组 (向量)来表示一个文本，该文本可以是短语、句子或者文章;最新一代Embedding模型是基于ada模型微调的text-embedding-ada-002模型;通过将文本转化为词向量，就可以让计算机进一步的“读懂文本”，通过词向量的计算和分析和相似度计算，可以对其背后的文本进行搜索、聚类、推荐、异常检测和分类等;

语言结构，映射到高维空间的向量中，使得语义上相近的词或者句子在向量空间中的距离也较近;例如Embedding后的句子，“老鼠在找吃的”将和“奶酪”词向量接近，因为二者表意类似。而与之句式格式与之相近的“猫在找食物”，则距离更远;GPT模型的Embedding层往往是在与训练过程中通过自回归训练完成，同时在微调时，也往往会修改Embedding层;

五、审查模型

Moderation模型，旨在检查内容是否符合 OpenAl 的使用政策。这些模型提供了查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性未成年人、暴力和暴力/图片等。

六、编程大模型

Codex大模型，用GitHub数十亿行代码训练而成，能够“读懂”代码，并且能够根据自然语言描述进行代码创建;

Codex最擅长Python，同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、 TypeScript、SQL,甚至 Shell 等十几种编程语言;

该模型发布于2021年8月10日，目前代码编写功能已经合并入GPT-3.5，官网显示该模型为已弃用(deprecated)状态，意为后续不再单独维护，但并不表示OpenAl已放弃编程大模型，相反越来越多的编程功能被集成到语言大模型中;

目前该模型集成于Visual Studio Code、GitHub Copilot、Azure OpenAl Service等产品中，用于提供自动编程功能支持;

七、OpenAl可调用模型API一览

在个人中心->API速率限制查看中可以一次性看到目前账户可用的全部API地址: https://platform.openai.com/account/rate-limits

通用模型API:如GPT-3.5-turbo，GPT-4，ada…

停止维护但仍可使用的API:如GPT-3.5-turbo-0301 (3月1号停止维护)GPT-4-0314 (3月14号停止维护)

八、命名规则

面向特定功能的微调模型API: 如ada-code-search-code (基于ada微调的编程大模型)，babbage-similarity (基于babbage微调的的文本相似度检索模型)…

多版本编号模型API:如text-davinci-001 (达芬奇文本模型1号)、text-embedding-ada-002 (基于ada的Embedding模型2号)

九、为什么要使用开源大模型

更大的微调空间:相比在线大模型，开源大模型可以使用更多微调框架进行模型微调，微调空间更大，更有可能快速完成定制化大模型训练;

更加灵活的AI应用开发: 相比封闭的在线模型，开源模型可以更加灵活便捷的嵌入到AI应用中，同时也可以更加方便的搭配其他开源框架进行使用，从而实现更高效率的AI应用开发;

更低的资费、更安全的数据保障: 此外，不同于在线大模型需要根据API调用情况付费开源大模型开源本地部署，仅需支付相应算力费用即可;此外，数据可以直接本地训练模型，无需在线提交数据进行在线模型微调，数据安全也将更有保障;

十、全球开源大模型性能评估榜单

Hugging Face @:

Open LLM Leaderboard地址: https://huggingface.co/spaces/HuggingFaceH4/open Im leaderboard

Falcon大模型大杀四方: Falcon模型为阿联酋阿布扎比创新研究所 (TII)开源的大模型号称“史上最强开源大模型”，总共400亿参数，模型在1万亿个高质量Token上完成训练，性能超过拥有650亿参数的LLaMA。遗憾的是Falcon并不支持中文。

LMSYS组织 (UC伯克利背景) : LLM Leaderboard地址: https://chat.Imsys.org/?arena

通过匿名PK进行模型性能比较，同时纳入开源大模型和在线大模型进行PK，其中GPT-4排名第一国内清华大学团队ChatGLM-6B模型位列14。该榜单实时更新较慢，目前Falcon尚未参赛。

十一、中文最强大语言模型-ChatGLM 130B

ChatGLM模型是由清华大学团队开发的大语言模型，该模型借鉴了ChatGPT 的设计思路，在千亿基座模型GLM-130B 中注入了代码预训练，通过有监督微调 (Supervised Fine-Tuning) 等技术实现人类意图对齐。2022年11月，斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测，GLM-130B 是亚洲唯一入选的大模型。在与 OpenAl、谷歌大脑、微软、英伟达、脸书的各大模型对比中评测报告显示 GLM-130B 在准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。

十二、更加精简的低门槛大模型:ChatGLM 6B

清华大学团队同时开源 ChatGLM-6B 模型。ChatGLM-6B是一个具有62亿参数的中英双语语言模型。通过使用与 ChatGLM (chatglm.cn)相同的技术，ChatGLM-6B 初具中文问答和对话功能，并支持在单张 2060s 上进行推理使用。具体来说ChatGLM-6B 有如下特点:

充分的中英双语预训练: ChatGLM-6B 在 1:1 比例的中英语料上训练了 1T 的token 量，兼具双语能力;

较低的部署门槛: FP16 精度下，ChatGLM-6B 需要至少 13GB 的显存进行推理结合模型量化技术，这一需求可以进一步降低到 10GB (INT8) 和6GB(INT4)，使得 ChatGLM-6B 可以部署在消费级显卡上;

硬件要求：

其中，FP16指的是高精度模式，该模式下推理 (即模型运行)需要至少13G显存，微调需要至少14G显存;多轮对话则需要20G 8090级别的显卡。

INT4（保留4位参数）、INT8则是量化模式，所谓量化模式，指的是模型会限制参数的精度，INT4表示保留4位参数精度，INT8则表示保留8位参数精度，此时相应的推理显存占用和微调显存占用都会明显减少。最低精度INT4模式下，可以在单卡2060上运行，也是目前硬件要求最低的开源大模型;

根据实际测试，在高精度模式下，多轮对话最低显存占用为20G，微调显存占用为22G左右。

十三、ChatGLM 6B丰富的开源生态

微调框架: ChatGLM 6B + P Tuning微调，

项目地址: https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md微调框架: ChatGLM 6B + LORA微调，项目地址: https://github.com/mymusise/ChatGLM-Tuning

本地知识库: ChatGLM 6B + LangChain，

项目地址: https://github.com/imClumsyPanda/langchain-ChatGLM

多轮对话前端: ChatGLM 6B多轮对话的Web UI展示，

项目地址: https://github.com/Akegarasu/ChatGLM-webui

十四、基于ChatGLM的多模态大模型VisualGLM 6B

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型语言模型基于 ChatGLM-6B，具有 62 亿参数;图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。VisualGLM-6B 依靠来自于 CogView 数据集的30M高质量中文图文对，与300M经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到ChatGLM的语义空间;之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

十五、VisualGLM 6B VS Dall.E模型实现思路区别

Dall·E: 将图像视作一种语言，将其转化为离散化的Token并进行训练，优势在于能够非常详细的描述一张图片，但缺点在于图像的Token利用率较低，需要1000以上的Token才能描述一张256分辨率的图;

VisualGLM: 考虑到人类在认识图片的时候，往往只对少量视觉语意信息感兴趣，因此可以不用将整个图片全部离散化为图片，只将图片特征对其到预训练语言模型即可，这也是BLIP-2的视觉语言与训练方法实现策略。优势在于能够充分语言模型，缺点在于会缺失图像部分底层信息 (细节信息)

医学影像诊断大模型XrayGLM 6B

项目地址：https://github.com/WangRongsheng/XrayGLM

基于VisualGLM模型，在UI-XRay医学诊断报告数据集上进行微调而来报告翻译借助OpenAI GPT模型完成翻译，微调框架为LORA;

十六、中文大模型学习首选一一ChatGLM 6B

低门槛上手使用，最低2060即可运行:中英双语大模型，其中中文提示效果更佳;较为丰富的对话UI、微调、AI开发项目生态;大神云集的项目开发和维护团队;率先提出多模态大模型VisualGLM;非常活跃的开源社区，已经越来越多的微调和实践应用场景，未来发展极具潜力;

在美国技术封锁和中美技术竞争的大背景下，支持中文、支持国产芯片进行计算的国产开源大模型，毫无疑问是更佳值得长期关注并进行技术学习的;

十七、模型微调三类方法：

第一类方法: 借助OpenAI提供的在线微调工具进行微调;

第二类方法:借助开源微调框架进行微调;

微调， Fine-Tuning，一般指全参数的微调 (全量微调) ，指是一类较早诞生的微调方法，全参数微调需要消耗大量的算力，实际使用起来并不方便，因此不久之后又诞生了只围绕部分参数进行微调的高效微调方法;

高效微调，State-of-the-art Parameter-Efficient Fine-Tuning (SOTA PEFT)，特指部分参数的微调方法，这种方法算力功耗比更高，也是目前最为常见的微调方法;除此之外，Fine-Tuning也可以代指全部微调方法，同时OpenAI中模型微调API的名称也是需要注意的是，OpenAI提供的在线微调方法也是一种高效微调方法，并不Fine-Tuning,是全量微调;

第三类方法：基于强化学习的进阶微调方法RLHF方法：RLHF: Reinforcement Learning from HumanFeedback，即基于人工反馈机制的强化学习。最早与2022年4月，由OpenAI研究团队系统总结并提出,并在GPT模型的对话类任务微调中大放异彩，被称为ChatGPT“背后的功臣”;

RLHF也是目前为止常用的、最为复杂的基于强化学习的大语言模型微调方法，目前最好的端到端RLHF实现是DeepSpeedChat库，由微软开源并维护;

十八高效微调

高效微调方法一: LORA
Github地址: https://github.com/microsoft/LoRA

论文地址: https://arxiv.org/abs/2106.09685
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS (2021)基于低阶自适应的大语言模型微调方法
原理简述:基于大模型的内在低秩特性，增加旁路矩阵来模拟全参数微调;。LoRA最早由微软研究院发布的一项微调技术;
简而言之，是通过修改模型结构进行微调，是一种四两拨千斤的微调方法是目前最通用、同时也是效果最好的微调方法之一;课程将详细介绍LoRA微调实践方法；
概念辨析: 大模型微调LoRA与通信技术LoRa，二者相差一个字母的大小写，是完全两种不同的技术;
LoRA除了可以用于微调大语言模型 (LLM)外，目前还有一个非常火爆的应用场景: 围绕diffusion models (扩散模型) 进行微调，并在图片生成任务中表现惊艳;

高效微调方法二:Prefix Tuning
论文地址: https://aclanthology.org/2021.acl-long.353/
Prefix-Tuning: Optimizing Continuous Prompts for Generation (2021)基于提示词前缀优化的微调方法
来源于斯坦福大学的一种高效微调方法;
原理简述: 在原始模型基础上，增加一个可被训练的Embedding层，用于给提示词增加前缀，从而让模型更好的理解提示词意图,并在训练过程中不断优化这些参数;
Prefix Tuning既能够在模型结构上增加一些新的灵活性，又能够在模型使用上提供一种自动的、能够改进模型表现的提示机制;

高效微调方法三:Prompt Tuning
论文地址: https://arxiv.org/abs/2104.08691
The Power of Scale for Parameter-Efficient Prompt Tuning (2021)
由谷歌提出的一种轻量级的优化方法;
原理简述: 该方法相当于是Prefix Tuning的简化版本，即无需调整模型参数，而是在已有的参数中，选择一部分参数作为可学习参数，用于创建每个Prompt的前缀，从而帮助模型更好地理解和处理特定的任务;不同于Prefix方法，Prompt Tuning训练得到的前缀是具备可解释性的,我们可以通过查看这些前缀，来查看模型是如何帮我们优化prompt的该方法在参数规模非常大的模型微调时效果很好，当参数规模达到100亿时和全量微调效果一致;

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

程序员二飞

关注

25
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
一口气了解大模型相关通识，基础笔记！

，特指部分参数的微调方法，这种方法算力功耗比更高，也是目前最为常见的微调方法;除此之外，Fine-Tuning也可以代指全部微调方法，同时OpenAI中模型微调API的名称也是需要注意的是，OpenAI提供的在线微调方法也是一种高效微调方法，并不Fine-Tuning,是全量微调;微调， Fine-Tuning，一般指全参数的微调 (全量微调) ，指是一类较早诞生的微调方法，全参数微调需要消耗大量的算力，实际使用起来并不方便，因此不久之后又诞生了只围绕部分参数进行微调的高效微调方法;
复制链接

扫一扫