阿里面试官：“Transformers 中的 Weight Tying 是什么?”

最新推荐文章于 2024-09-25 21:52:56 发布

Python编程杰哥

最新推荐文章于 2024-09-25 21:52:56 发布

阅读量976

点赞数 14

文章标签：大数据单例模式语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/xx_nm98/article/details/140505127

版权

题目：

Transformers 中的 weight tying 是什么?

答案

Transformers 的输入会从一个词向量矩阵中获取对应 token 的词向量，这个词向量矩阵的大小为 (vocab_size, hidden_size)。

在预测一个词的输出概率时，transformer 有个预测头(prediction head), 这个预测头是 Transformers 的最后一层，大小为 (hidden_size, vocab_size)，可能还有一个 bias。

如果预测头没有bias的话，这两个矩阵的大小是一样的，如果这两个矩阵使用同一个矩阵，就被称作 weight typing。

这项技术是由两拨人独立提出的，一波人是Ofir Press, Lior Wolf 发表了《Using the Output Embedding to Improve Language Models》，一波是Hakan Inan, Khashayar Khosravi, Richard Socher 提出的《Using the Output Embedding to Improve Language Models》。

这里面比较出名的是 Richard Socher，创办了you.com

下面简单回顾一下这两篇论文关于 Weight Typing 的部分。

Using the Output Embedding to Improve Language Models

这篇文章的出发点是基于词向量和预测头的功能考虑的。作者认为，词向量最终应该满足这样一个条件，那就是相似词的词向量应该也相似（在向量空间中的距离应该更近）。而预测头需要参与 softmax 去预测某一个词，我们期望两个同义词互相交换位置后，得分应该也差不多，这也就要求相似的词在预测头中对应的向量也应该相似才行。

基于这一点的考虑，作者认为词向量和预测头可以共享权重。然后做了一些实验，证明出了结构极其简单的 word2vec，其他的稍微复杂一点的模型，weight tying 之后效果都变好了。

Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling

这篇文章提了个新的loss，在这个loss下，从数学上证明了词向量和预测头这两个矩阵的相似性。具体证明有点繁琐，感兴趣的可以看看原文。

Weight Tying 的好处

最明显的好处就是降低了模型参数。

在词表不大的时候并没有什么感觉，但是词表越大，词向量占参数的比例就越大。

比如 llama2 有 32000 个 token ，参数量为 32000 * 4096 = 131072000 个，整体参数量为 6738415616，占比 1.95%.

llama3 有 151936 个 to，参数量为 151936 * 4096 = 622329856 个，整体参数量为 8030261248，占比 7.75%.

然而 llama3 并没有使用 Weight Tying，如果使用的话，参数量会缩减 7.75%，后面会看到，一些词表更大的模型，都用了 Weight Tying。

加速模型收敛

模型参数变小，自然收敛更快。但是从原理上还有另外一层解释。

如果没有 weight tying，词向量矩阵只会更新自己见过的 token。但是当使用 weight tying 后，所有的 token 的词向量都会更新，即使没见到的 token，模型也会分配合适的概率。

这个问题在 BERT 之类的 Encoder-only 的模型中更为显著，因为每个样本只会预测15%左右的词汇，而不是像 Decoder 那样所有的 token 都会更新。所以 Encoder-only 的模型更喜欢使用 Weight Tying

Weight Tying 的坏处

Weight Tying 也不只是有好处，也有坏处。从根本上说，预测头和词向量所肩负的任务是完全不一样的，强扭的瓜不一定甜。

在论文《Improving Low Compute Language Modeling with In-Domain Embedding Initialisation》也提到，在一些领域内的低词频的词汇得到充分的训练后，Weight Tying 并没有像 Press & Wolf 那样改善模型的性能。所以更多的语料会削弱 Weight Tying 的效果。

还有在论文《Representation Degeneration Problem in Training Natural Language Generation Models》中提到，使用 weight tying 会导致各向异性问题。

常用模型使用 Weight Tying 的情况

Gemma: True
qwen: False
llama : False
deepseek:
yi: False
glm2/4: false
glm1: True
command R: True
mistral: False

可以看出， Gemma 和 command R 由于词表确实很大（256000 个），使用了 Weight Tying，其他的词表在 100k+ 的搜没有采用 Weight Tying

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述