陈丹琦团队揭Transformer内部原理：另辟蹊径，从构建初代聊天机器人入手

最新推荐文章于 2024-09-25 15:05:15 发布

雪碧没气阿

最新推荐文章于 2024-09-25 15:05:15 发布

阅读量529

点赞数 17

文章标签： transformer 机器人深度学习人工智能大语言模型 ai大模型 chatgpt

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xxue345678/article/details/140530098

版权

好家伙！为了揭秘Transformer内部工作原理，陈丹琦团队直接复现——

第一个经典聊天机器人ELIZA。

ELIZA编写于20世纪60年代，主要用于心理治疗，在当时似乎已经能“听懂”人说话。

比如下面这个例子：

可以看出，ELIZA的对话方式“有点狡猾”，像极了看似认真实则敷衍的好闺蜜好兄弟~

由于表现出了早期语言模型行为，且算法简单，团队通过成功“复现”ELIZA揭开了Transformer的神秘面纱。

他们在研究中发现：

Transformer模型倾向于使用注意力机制来识别和复制序列中的特定模式，而非严格按照词的位置来复制
即使没有特别为记忆设计的工具，模型也能通过自己的计算过程来实现记忆效果

更多详情接下来一睹为快。

复现经典聊天机器人ELIZA

动手前第一步，先来简单了解下ELIZA算法。

ELIZA同时使用本地模式匹配和两种长期记忆机制（循环遍历响应和记忆队列）。

简单来说，本地模式匹配是指ELIZA有一套关键词和规则，当它看到用户说的话里包含这些关键词时，就能按照规则给出回应。

而且，ELIZA会记住以前是怎么回答类似问题的，然后换着花样给出不同的回答。

甚至它还有自己的小本本（记忆队列），可以把用户说过的重要事情记下来。当用户提到以前的事情时，ELIZA就可以翻翻笔记本，然后根据记得的内容给出回应。

摸清了上述原理，团队通过4个子任务来实现ELIZA算法。

其核心是使用一组模式匹配规则（称为分解模板）和相应的转换规则（称为重组规则）来生成响应。

第一步，将输入分成多个段落。

这里输入的是对话历史，包括用户的输入（标记为“u：”）和ELIZA的响应（标记为“e：”）。

在多轮对话中，用户输入和ELIZA响应会形成一个连续的序列，然后Transformer模型使用自注意力机制来处理这些输入。它能够通过注意力权重来识别对话中的重要部分，并据此生成响应。

接下来，团队利用无星号正则表达式（Star-Free Regular Expression）来构建ELIZA的模板匹配机制。

左侧为分解模板，告诉我们机器人如何识别用户说的话。比如，如果规则是“你 0 我”，那么“你讨厌我”和“你觉得我怎么样”都会被识别。

右侧为重组规则，告诉机器人如何回应。比如，如果规则是“你 0 我”，那么机器人可能会回应“你为什么认为我讨厌你？”这里的“0”会被替换成用户实际说的话。

模型尝试**将每个用户输入与一个“分解模板”匹配。**这个过程是并行进行的，意味着模型会同时比较每个用户输入与所有可能的模板，以找到最合适的匹配。

第三步，模型识别出得分最高的模板。在选择转换规则时，模型不仅考虑模板的匹配度，还会考虑这个模板在对话中较早匹配的次数。这可能有助于模型更准确地理解对话的上下文。

最后，在识别出匹配的模板后，模型需要生成一个合适的响应。

这一过程涉及到两种主要的复制机制：基于内容的注意力（感应头）和基于位置的注意力。前者通过识别输入序列中的模式来复制词，而后者则依赖于词在输入中的具体位置。

为了模拟ELIZA的长期记忆功能，团队还引入了循环遍历重组规则和记忆队列机制。

比如前者，一种方法是通过计算模板被匹配的次数，并使用模运算来选择重组规则（模块化前缀和）；另一种方法是通过检查模型之前的输出来决定下一次的回应（中间输出）。

再比如后者，一种实现记忆队列的方法是使用一个自动机，它可以通过增加或减少状态来跟踪队列中的记忆（Gridworld automaton）；另一种方法是通过分析模型之前的输出来确定何时从记忆队列中检索记忆（中间输出）。

通过以上几个步骤，团队成功复现了ELIZA模型。

实验结论

为了测试效果，团队用新模型生成了合成的ELIZA数据集，这些数据集包括多轮对话，每轮对话最多包含512个词。

然后，基于这些合成数据，团队使用GPT-2从头训练了新的Transformer模型。

新模型包含8层解码器，每层有12个注意力头，隐藏维度为768。

通过观察模型在学习过程中的表现，团队进一步分析Transformer模型在处理对话任务时的行为和学习机制。

研究显示，Transformer模型能够快速学会识别正确的重组规则，但需要更长时间来正确实施转换。特别是在多轮对话和内存队列示例中，准确性略低。

另外，团队进一步分析了模型的错误，发现模型在精确复制方面存在困难，尤其是当需要复制的标记数量较多时。同时，模型在处理内存队列时也遇到了挑战，尤其是当前回合与目标内存之间的距离较远时。

最重要的是，研究发现Transformer模型倾向于根据对话内容的相似性（Induction Head）来选择回答，而非严格按照词出现的位置来复制；而且，通过调整数据属性可以影响模型学习的机制。

事实上，除了上述具体发现，该项目最大贡献是给研究自动可解释性提供了新思路。自动可解释性是指系统能够自动生成解释其决策过程的能力，这对于提高人工智能系统的透明度和可信度非常重要。

在本研究中，团队通过模仿ELIZA这样的经典聊天机器人，采用了一种结构化和系统化的方法来分析模型的行为。

这种方法包括生成特定的数据集、设计特定的模型架构和训练策略。

这一切实现了：

为大语言模型研究提供一个受控的理想化环境。

目前相关研究已公开，具体可进一步查阅论文。

论文：
https://arxiv.org/abs/2407.10949
GitHub：
https://github.com/princeton-nlp/ELIZA-Transformer
参考链接：
https://x.com/danfriedman0/status/1813168885631263126

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

雪碧没气阿

关注

17
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。