参考:
(1)从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 知乎 (zhihu.com)
(2)吴恩达深度学习
(3)deep_thoughts老师的原理和代码讲解:https://space.bilibili.com/373596439越是底层的特征越是所有不论什么领域的图像都会具备的比如边角线弧线等底层基础特征,越往上抽取出的特征越与手头任务相关。正因为此,所以预训练好的网络参数,尤其是底层的网络参数抽取出特征跟具体任务越无关,越具备任务的通用性
Word representation 词汇表征
单词的语义表征
稀疏式
one-hot encoding(维度太大)
分布式(连续浮点型的向量,长度固定)
类似于word embedding,各种embedding
应用场景
word/character/phrase/sentence/paragraph embedding
speaker/user/item embedding
基于词的one-hot的缺点:每个词孤立的分开,导致模型对相关词的泛化能力不强
将词标识为特征向量
转换为二维表示:t-SNE
WE Word Embedding
Word Embedding的特征
一个简单的例子:
已知man-woman,给出king找到对应的词
eman - ewoman ≈ eking - equeen
这是因为在特征向量表示中,main,woman,king,queen的差异主要由Gender决定
词特征向量相似度
t-SNE转换为二维标识后很多无法再明显显示为平行四边形
常用的相似度函数:余弦相似度
embedding matrix
当使用模型学习词嵌入时,实际上是在学习一个词嵌入矩阵
one-hot大部分为0,所以矩阵相乘的的效率在实际应用中太低
-
词汇表大小(Vocabulary Size): 这是用于训练 word embedding 的语料库中唯一单词的数量。假设词汇表大小为 V。
-
词向量维度(Embedding Dimension): 这是将每个单词映射到的连续向量空间的维度。假设词向量维度为 D。
词向量维度通常是作为一个超参数(hyperparameter)在训练 word embedding 模型时手动指定的。选择词向量维度的过程通常是基于经验和任务需求的。较小的词向量维度可能会捕捉到更少的语义信息,而较大的词向量维度可能会包含更丰富的语义信息,但同时也会增加模型的复杂度和计算成本。
一般来说,通常将词向量维度设置在 100 到 300 之间。常见的选择包括 50、100、200 或 300 维。
WE的问题
word embedding无法区分多义词的不同语义
用语言模型训练的时候,不论什么上