从零开始了解transformer的机制|第一章:word embedding

transformer第一步:把输入的词拆分,并且表示为机器能看懂的语言——word embedding

首先要对输入的词汇进行处理。那我们就要想一下:怎么表达词汇能够让机器看得懂呢?

答案是:通过向量来表示单词。

那每个单词表示成的向量长什么样呢?

朴素的想法,我们可能会开一个向量,向量的长度就是所有词汇的总和。向量中每个位置代表一个词(例如第一个位置代表abandon,第二个位置代表an)然后abandon这个词就用(1,0,0...)表示,an这个词就用(0,1,0...)来表示。

例如:

 

这个方法就叫one-hot编码。

one-hot编码直观,好理解。但是这种编码会有两个问题:

1.浪费存储空间。每个单词的向量长度都很长,而且有很多0这种无效信息。

2.无法明确表达各个词之间的关联性。

所以,我们不用one-hot编码,而用word-embedding。

所谓word-embedding。就是:

把每个单词变成一个多维的数字向量。你可以把这个向量想象成是词汇空间里的一个点,而每个维度代表了某种词汇特性,比如语义(意义)或者上下文关系。这样一来,相似意义的单词在向量空间中就会靠得比较近,而不相关的单词则会离得远一些。

举个例子,假设我们有一个二维的词汇空间,其中 x 轴代表“好坏”属性,y 轴代表“正面负面”属性。那么单词 "happy" 可能会被表示成 (3, 5),而 "sad" 可能是 (-2, -4)。你可以看到,"happy" 和 "sad" 在这个二维空间里的距离相对较远,因为它们在语义上是不同的。

这样做的好处就是:能够把同类词语在向量空间中放在一块。比如:

更深入一步的Q&A: 

Q:word embedding是固定编码好的吗?

A:Word embedding 并不一定是固定编码好的,它可以是固定的,也可以是可训练的,取决于使用的具体方法和任务需求。

  1. 固定的 Word Embedding: 有些情况下,可以使用预训练的 word embedding 模型,如 Word2Vec、GloVe 等。这些模型在大规模文本语料库上训练得到的词向量,具有丰富的语义信息。在某些任务中,你可以将这些预训练的词向量直接用于你的模型,而且它们是固定不变的,不会在模型训练过程中更新。

  2. 可训练的 Word Embedding: 另一方面,你也可以在特定任务中让模型学习自己的 word embedding。在这种情况下,模型会在训练过程中根据任务的需要调整词向量,使其更适合于该任务。这种方法在某些情况下可以提供更好的性能,因为模型可以学习适应特定任务的语义表示。

Q:各个词向量表示的模长是一样的吗?

A:不完全一样。在大多数情况下,Word Embedding 技术并不会使得每个单词转化成的向量模长完全相同。这是因为每个单词的向量代表了该单词的语义和上下文信息,而不同单词的语义和上下文是不同的,因此它们的向量也会有所不同。

然而,通常情况下,这些向量的模(长度)可能是相似的,因为它们都在相同的向量空间中被训练出来。这意味着在向量空间中,模长相似的向量更有可能表示类似的语义信息。但并不是绝对的,因为实际上的模长还受到训练数据和模型参数等因素的影响。

在一些情况下,人们可能会对生成的词向量进行标准化,使得它们的模长一致。这样可以简化计算,并且有时可以在某些任务中产生更好的效果。但在大多数情况下,词向量的模长差异是可以接受的,因为它们的主要价值在于捕捉单词之间的语义和上下文关系,而不是模长本身。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值