ChatGLM系列解析（三）—— ChatGLM3 —— AgentTuning

最新推荐文章于 2025-05-07 08:25:04 发布

云从天上来

最新推荐文章于 2025-05-07 08:25:04 发布

阅读量1.5k

点赞数 31

CC 4.0 BY-SA版权

分类专栏：大语言模型深度学习细节研讨自然语言处理NLP 文章标签：人工智能自然语言处理 AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiao_ling_yun/article/details/140905424

本文作为ChatGLM系列的第三篇，主要讲到ChatGLM3做出的优化与改进；也会补充ChatGLM2和ChatGLM3与GLM1的区别（这些内容在笔者的博客中确实存在遗漏）。

ChatGLM系列解析（一）—— ChatGLM开篇之作_chatglmforconditiongeneration-CSDN博客

ChatGLM系列解析（二）—— ChatGLM2_chatglm glm2-CSDN博客

个人认为ChatGLM3的技术核心特色是自研的AgentTuning、多模态能力CogVLM和独创的多阶段增强预训练方法和更丰富的训练数据。

在能力层面的特色可以总结4点：引入特定prompt，自闭环方式解决安全注入问题；增加模型‘函数调用’和‘agent 调用’能力；代码能力；能力对齐和安全对齐。

我们先来讲下技术核心特色——AgentTuning（其余核心技术后续更新）

一、AgentTuning

1.1 motivation

LLM是可以作为Agent的，在作为Agent时，起到完成任务规划、记忆和使用对应工具的作用，这需要细粒度的Prompt方法，又需要LLM自身具备强大的性能（上下文理解、推理等能力）。

现有针对LLM Agent能力的研究主要关注设计提示(如Prompt) or 构建框架(COT、TOT)来完成某一特定代理任务，而没有从根本上提升LLM自身的通用Agent能力（笔者的理解：外在依赖为主）。

还有一些工作专注于提升LLM在某些特定方面的能力，如代码编写、论文阅读等，这通常以牺牲其通用能力和泛化能力为代价。针对上述问题，清华大学和智谱AI提出了AgentTuning。

1.2 AgentTuning作用与两步走流程

AgentTuning是一种简单而通用的方法，既可以增强LLM的Agent能力，有可以同时保持其通用LLM能力。

对于一个Agent任务，LLM代理的‘交互轨迹’可以记录为多轮对话历史（u1，a1，…，un，an）。考虑到现有的对话模型通常包括两个角色，用户和模型，ui表示来自用户的输入，ai表示来自的响应模型。每个轨迹都有一个最终奖励r∈[0,1]，反映了任务的完成情况。

AgentTuning，主要包含两个步骤：

1. 构建一个覆盖多种代理任务、包含高质量交互轨迹的轻量级指令调优数据集

最低0.47元/天解锁文章

200万优质内容无限畅学

云从天上来

博客等级

码龄9年

54
原创

494
点赞

976
收藏

269
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: ChatGLM系列解析（二）—— ChatGLM2

下一篇：: ChatGLM系列解析（三）—— ChatGLM3 —— 多模态能力CogVLM

最新评论

ResNet 残差、退化等细节解读
any642: 前向传播函数 y = f(x) + x ，你会发现求导结果是 1 + f'(x)，也就是说无论f'(x)多么的小，因为1的存在，链式求导的结果不会为0，进而解决了梯度消失的问题。为什么用输出结果对x求导呀，不是损失函数对参数求导得到梯度吗？不是很理解
使用 onnxruntime-gpu 进行推理，运行时间久显存逐渐递增无法减少
７５: 这个问题目前无法解决是嘛？
NLP中的Tokenization方法——BPE（Byte-Pair Encoding）
kk_love_c__: 补充词粒度分词的缺点即为什么要使用字词粒度的分词： 1. 减少未登录词问题问题：以词为粒度的分词方法需要维护一个庞大的词汇表，当遇到词汇表中没有的新词或罕见词时，模型可能无法处理，导致未登录词（OOV, Out-of-Vocabulary）问题。解决方案：子词分割可以将未知的词分解为已知的子词或字符单元，使模型能够处理它们。即便是完全未见过的单词，模型也可以通过子词组合来理解其含义。 2. 提高模型的泛化能力问题：以词粒度分割训练的模型很难泛化到新词，尤其是在处理有丰富词缀变化的语言（如阿拉伯语、德语）时。解决方案：子词粒度分割可以更好地捕捉词汇中的通用模式和词缀，使得模型在面对词的不同变形时具有更好的泛化能力。例如，“playing”、“played”和“player”可以被分割为共享的子词，如“play”。 3. 压缩词汇表大小问题：词粒度分割需要维护一个非常大的词汇表，以涵盖不同的单词形态和组合，这会显著增加模型的复杂度和计算需求。解决方案：子词分割方法（如 BPE、WordPiece、SentencePiece）能够通过分解和合并字符序列来减少词汇表的大小，降低计算复杂度。子词分割使模型能够使用较小的词汇表来覆盖更多的语言组合。 4. 适应多语言任务问题：在多语言环境中，每种语言有独立的词汇和语法，词粒度分割难以涵盖所有语言的单词。解决方案：子词分割方法可以使用共享的子词或字符单元表示多种语言，从而支持跨语言的训练和推理。这对于多语言模型（如 mBERT、XLM-R）尤其重要，因为它们需要在不同语言间共享表示。 5. 减少拼写变体的影响问题：在实际应用中，尤其是用户生成内容（如社交媒体和论坛）中，拼写错误或不一致性非常常见。以词粒度进行分割的模型在面对拼写错误或变体时通常无法正确处理。解决方案：子词分割可以将这些变体分解为相似的子词单元，使得模型能够理解和处理拼写变体。例如，“colour”与“color”可以共享子词“colo”。 6. 更细粒度的上下文捕捉问题：在以词为单位的分割中，模型可能无法捕捉单词内部的语义联系。解决方案：子词粒度分割使模型能够关注到词内的细微语义变化，比如“nation”和“national”共享子词“nation”，这有助于模型更好地理解相关词的关系。注：以上内容由GPT生成
解析Bert系列模型的输出结果？结构与形状是什么？如何更好地应用到‘微调下游任务’中？
云从天上来: 会输出对应的部分的，但是在输入阶段，PAD部分对应的默认值会很大，进而在last输出阶段，PAD对应的结果会很小，基本==忽略影响
ChatGLM系列解析（三）—— ChatGLM3 —— 多模态能力CogVLM
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。