ChatGLM系列解析（二）—— ChatGLM2

云从天上来

已于 2024-08-04 14:32:31 修改

阅读量648

点赞数 4

分类专栏：大语言模型文章标签：人工智能自然语言处理深度学习 Chat chatgpt

于 2024-08-02 15:39:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiao_ling_yun/article/details/140871613

版权

大语言模型专栏收录该内容

6 篇文章

订阅专栏

ChatGLM2在ChatGLM1的基础上进行了多方面的优化和改进，本文将会重点讲述其中的优化与收益。

一、主要收益

1. 长文本处理能力：通过FlashAttention技术，ChatGLM2扩展了文本处理长度限制，支持更长的上下文输入，从ChatGLM1的2K提升到了32K，使得模型能够处理更长、更复杂的文本数据。同时，对话阶段使用8K的上下文长度训练，允许更多轮次的对话。提升了模型根据用户反馈进行自我优化的可能性，进一步优化多轮对话质量。

2. 更低的显存占用：基于Multi-Query Attention(MQA)技术，‌ChatGLM2-6B实现了更高效的推理速度和更低的显存占用。‌

官方数据显示，‌推理速度相比初代提升了42%，‌在INT4量化下，‌6G显存支持的对话长度从1K提升到8K。‌

3. 数据集表现：ChatGLM2在多个数据集上均取得了大幅度的提升。据相关数据显示，ChatGLM2在MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等方面均展现出了更强的竞争力。这一成绩不仅证明了ChatGLM2的强大性能，也为其在各个领域的应用提供了更广阔的可能性。(3的内容，来自于GPT-4和文心一言，你还别说好用～)

二、核心技术

FlashAttention：优化GPU内存访问开销，通过tiling、重计算、核融合等方式提升注意力机制推理速度。详情，请见本人博客FlashAttention解析——大预言模型核心组建-CSDN博客
Multi-Query Attention(MQA)：19年的技术，Query依旧分为多个Head，但是每个Head均共享一个Key和Value。详情，请见本人博客MQA(Multi-Query Attention)详解-CSDN博客
旋转位置编码（Rotary Position Encoding，简称RoPE）。ChatGLM2使用了新的位置编码。旋转位置编码是一种特殊的位置编码方式，它通过旋转嵌入（Rotary Embedding）来实现对位置信息的编码。这种编码方式能够有效地将位置信息融入到Transformer模型的输入中，帮助模型区分不同位置的token，从而更好地理解句子的语义结构。
ChatGLM2升级了基座模型，‌使用了GLM的混合目标函数。目标函数结合了自回归（Auto-Regression, AR）和自嵌入（Auto-Embedding, AE）两种预训练方法。
友好的P-tuning代码：仓库中提供了友好的P-tuning代码，使得fine-tuning模型变得非常方便。

三、总结

相比于GLM1，GLM2能够支持更长的输入、支持更多轮次的对话并且在各项任务中均有更好的表现。主要使用的技术虽然已经发明，但逐渐被各种大预言模型接受。

关于FlashAttention、MQA的技术细节和代码解析，请移步本人博客

FlashAttention解析——大预言模型核心组建-CSDN博客

MQA(Multi-Query Attention)详解-CSDN博客

云从天上来

博客等级

码龄9年

54
原创

487
点赞

957
收藏

269
粉丝

关注

私信

热门文章

分类专栏

最新评论

ResNet 残差、退化等细节解读
any642: 前向传播函数 y = f(x) + x ，你会发现求导结果是 1 + f'(x)，也就是说无论f'(x)多么的小，因为1的存在，链式求导的结果不会为0，进而解决了梯度消失的问题。为什么用输出结果对x求导呀，不是损失函数对参数求导得到梯度吗？不是很理解
使用 onnxruntime-gpu 进行推理，运行时间久显存逐渐递增无法减少
７５: 这个问题目前无法解决是嘛？
NLP中的Tokenization方法——BPE（Byte-Pair Encoding）
kk_love_c__: 补充词粒度分词的缺点即为什么要使用字词粒度的分词： 1. 减少未登录词问题问题：以词为粒度的分词方法需要维护一个庞大的词汇表，当遇到词汇表中没有的新词或罕见词时，模型可能无法处理，导致未登录词（OOV, Out-of-Vocabulary）问题。解决方案：子词分割可以将未知的词分解为已知的子词或字符单元，使模型能够处理它们。即便是完全未见过的单词，模型也可以通过子词组合来理解其含义。 2. 提高模型的泛化能力问题：以词粒度分割训练的模型很难泛化到新词，尤其是在处理有丰富词缀变化的语言（如阿拉伯语、德语）时。解决方案：子词粒度分割可以更好地捕捉词汇中的通用模式和词缀，使得模型在面对词的不同变形时具有更好的泛化能力。例如，“playing”、“played”和“player”可以被分割为共享的子词，如“play”。 3. 压缩词汇表大小问题：词粒度分割需要维护一个非常大的词汇表，以涵盖不同的单词形态和组合，这会显著增加模型的复杂度和计算需求。解决方案：子词分割方法（如 BPE、WordPiece、SentencePiece）能够通过分解和合并字符序列来减少词汇表的大小，降低计算复杂度。子词分割使模型能够使用较小的词汇表来覆盖更多的语言组合。 4. 适应多语言任务问题：在多语言环境中，每种语言有独立的词汇和语法，词粒度分割难以涵盖所有语言的单词。解决方案：子词分割方法可以使用共享的子词或字符单元表示多种语言，从而支持跨语言的训练和推理。这对于多语言模型（如 mBERT、XLM-R）尤其重要，因为它们需要在不同语言间共享表示。 5. 减少拼写变体的影响问题：在实际应用中，尤其是用户生成内容（如社交媒体和论坛）中，拼写错误或不一致性非常常见。以词粒度进行分割的模型在面对拼写错误或变体时通常无法正确处理。解决方案：子词分割可以将这些变体分解为相似的子词单元，使得模型能够理解和处理拼写变体。例如，“colour”与“color”可以共享子词“colo”。 6. 更细粒度的上下文捕捉问题：在以词为单位的分割中，模型可能无法捕捉单词内部的语义联系。解决方案：子词粒度分割使模型能够关注到词内的细微语义变化，比如“nation”和“national”共享子词“nation”，这有助于模型更好地理解相关词的关系。注：以上内容由GPT生成
解析Bert系列模型的输出结果？结构与形状是什么？如何更好地应用到‘微调下游任务’中？
云从天上来: 会输出对应的部分的，但是在输入阶段，PAD部分对应的默认值会很大，进而在last输出阶段，PAD对应的结果会很小，基本==忽略影响
ChatGLM系列解析（三）—— ChatGLM3 —— 多模态能力CogVLM
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。