transformer第一步:把输入的词拆分,并且表示为机器能看懂的语言——word embedding
首先要对输入的词汇进行处理。那我们就要想一下:怎么表达词汇能够让机器看得懂呢?
答案是:通过向量来表示单词。
那每个单词表示成的向量长什么样呢?
朴素的想法,我们可能会开一个向量,向量的长度就是所有词汇的总和。向量中每个位置代表一个词(例如第一个位置代表abandon,第二个位置代表an)然后abandon这个词就用(1,0,0...)表示,an这个词就用(0,1,0...)来表示。
例如:
这个方法就叫one-hot编码。
one-hot编码直观,好理解。但是这种编码会有两个问题:
1.浪费存储空间。每个单词的向量长度都很长,而且有很多0这种无效信息。
2.无法明确表达各个词之间的关联性。
所以,我们不用one-hot编码,而用word-embedding。
所谓word-embedding。就是:
把每个单词变成一个多维的数字向量。你可以把这个向量想象成是词汇空间里的一个点,而每个维度代表了某种词汇特性,比如语义(意义)或者上下文关系。这样一来,相似意义的单词在向量空间中就会靠得比较近,而不相关的单词则会离得远一些。
举个例子,假设我们有一个二维的词汇空间,其中 x 轴代表“好坏”属性,y 轴代表“正面负面”属性。那么单词 "happy" 可能会被表示成 (3, 5),而 "sad" 可能是 (-2, -4)。你可以看到,"happy" 和 "sad" 在这个二维空间里的距离相对较远,因为它们在语义上是不同的。
这样做的好处就是:能够把同类词语在向量空间中放在一块。比如:
更深入一步的Q&A:
Q:word embedding是固定编码好的吗?
A:Word embedding 并不一定是固定编码好的,它可以是固定的,也可以是可训练的,取决于使用的具体方法和任务需求。
-
固定的 Word Embedding: 有些情况下,可以使用预训练的 word embedding 模型,如 Word2Vec、GloVe 等。这些模型在大规模文本语料库上训练得到的词向量,具有丰富的语义信息。在某些任务中,你可以将这些预训练的词向量直接用于你的模型,而且它们是固定不变的,不会在模型训练过程中更新。
-
可训练的 Word Embedding: 另一方面,你也可以在特定任务中让模型学习自己的 word embedding。在这种情况下,模型会在训练过程中根据任务的需要调整词向量,使其更适合于该任务。这种方法在某些情况下可以提供更好的性能,因为模型可以学习适应特定任务的语义表示。
Q:各个词向量表示的模长是一样的吗?
A:不完全一样。在大多数情况下,Word Embedding 技术并不会使得每个单词转化成的向量模长完全相同。这是因为每个单词的向量代表了该单词的语义和上下文信息,而不同单词的语义和上下文是不同的,因此它们的向量也会有所不同。
然而,通常情况下,这些向量的模(长度)可能是相似的,因为它们都在相同的向量空间中被训练出来。这意味着在向量空间中,模长相似的向量更有可能表示类似的语义信息。但并不是绝对的,因为实际上的模长还受到训练数据和模型参数等因素的影响。
在一些情况下,人们可能会对生成的词向量进行标准化,使得它们的模长一致。这样可以简化计算,并且有时可以在某些任务中产生更好的效果。但在大多数情况下,词向量的模长差异是可以接受的,因为它们的主要价值在于捕捉单词之间的语义和上下文关系,而不是模长本身。