从零开始了解transformer的机制|第一章：word embedding

最新推荐文章于 2024-08-15 09:36:21 发布

Odd Function

最新推荐文章于 2024-08-15 09:36:21 发布

阅读量564

点赞数

文章标签： transformer 自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_73179708/article/details/132310186

版权

transformer第一步：把输入的词拆分，并且表示为机器能看懂的语言——word embedding

首先要对输入的词汇进行处理。那我们就要想一下：怎么表达词汇能够让机器看得懂呢？

答案是：通过向量来表示单词。

那每个单词表示成的向量长什么样呢？

朴素的想法，我们可能会开一个向量，向量的长度就是所有词汇的总和。向量中每个位置代表一个词（例如第一个位置代表abandon，第二个位置代表an）然后abandon这个词就用（1,0,0...）表示，an这个词就用（0,1,0...）来表示。

例如：

这个方法就叫one-hot编码。

one-hot编码直观，好理解。但是这种编码会有两个问题：

1.浪费存储空间。每个单词的向量长度都很长，而且有很多0这种无效信息。

2.无法明确表达各个词之间的关联性。

所以，我们不用one-hot编码，而用word-embedding。

所谓word-embedding。就是：

把每个单词变成一个多维的数字向量。你可以把这个向量想象成是词汇空间里的一个点，而每个维度代表了某种词汇特性，比如语义（意义）或者上下文关系。这样一来，相似意义的单词在向量空间中就会靠得比较近，而不相关的单词则会离得远一些。

举个例子，假设我们有一个二维的词汇空间，其中 x 轴代表“好坏”属性，y 轴代表“正面负面”属性。那么单词 "happy" 可能会被表示成 (3, 5)，而 "sad" 可能是 (-2, -4)。你可以看到，"happy" 和 "sad" 在这个二维空间里的距离相对较远，因为它们在语义上是不同的。

这样做的好处就是：能够把同类词语在向量空间中放在一块。比如：

Q:word embedding是固定编码好的吗？

A:Word embedding 并不一定是固定编码好的，它可以是固定的，也可以是可训练的，取决于使用的具体方法和任务需求。

固定的 Word Embedding： 有些情况下，可以使用预训练的 word embedding 模型，如 Word2Vec、GloVe 等。这些模型在大规模文本语料库上训练得到的词向量，具有丰富的语义信息。在某些任务中，你可以将这些预训练的词向量直接用于你的模型，而且它们是固定不变的，不会在模型训练过程中更新。
可训练的 Word Embedding： 另一方面，你也可以在特定任务中让模型学习自己的 word embedding。在这种情况下，模型会在训练过程中根据任务的需要调整词向量，使其更适合于该任务。这种方法在某些情况下可以提供更好的性能，因为模型可以学习适应特定任务的语义表示。

Q:各个词向量表示的模长是一样的吗？

A:不完全一样。在大多数情况下，Word Embedding 技术并不会使得每个单词转化成的向量模长完全相同。这是因为每个单词的向量代表了该单词的语义和上下文信息，而不同单词的语义和上下文是不同的，因此它们的向量也会有所不同。

然而，通常情况下，这些向量的模（长度）可能是相似的，因为它们都在相同的向量空间中被训练出来。这意味着在向量空间中，模长相似的向量更有可能表示类似的语义信息。但并不是绝对的，因为实际上的模长还受到训练数据和模型参数等因素的影响。

在一些情况下，人们可能会对生成的词向量进行标准化，使得它们的模长一致。这样可以简化计算，并且有时可以在某些任务中产生更好的效果。但在大多数情况下，词向量的模长差异是可以接受的，因为它们的主要价值在于捕捉单词之间的语义和上下文关系，而不是模长本身。