Embeddings 概述

embeddings 概念

当我们处理自然语言文本数据时,通常需要将每个单词或短语表示为计算机能够理解的向量形式。这种将高维离散数据映射到低维连续空间中的过程被称为“嵌入”(embedding)。

嵌入的目标是捕捉词语之间的语义和语法关系。通过将每个词语映射到连续向量表示,相似的词语会在向量空间中靠近,而不相关的词语则会远离。例如,在一个好的词语嵌入空间中,“king” 和 “queen” 的向量表示应该非常接近,而与 “apple” 相关的向量表示则应该较远。

在深度学习中,嵌入常被用于代替特征工程中手动构造的特征。嵌入具有以下特点:

  1. 嵌入是连续的实数向量,可以直接作为神经网络的输入。
  2. 嵌入是基于上下文信息的,因此同一个单词或短语在不同上下文中可能有不同的嵌入表示。

嵌入在NLP中的应用广泛,可以用于文本分类、情感分析、命名实体识别、机器翻译等各种任务。利用嵌入,我们可以将文本数据转化为计算机能够处理的向量表示,并在各种机器学习或深度学习模型中进行进一步的分析和处理。

几种常见的嵌入方法:

Word2Vec

Word2Vec 是基于神经网络的模型,用于学习单词嵌入。它提供了两种训练方式:Skip-gram 和 CBOW(连续词袋模型)。它们的区别在于对当前单词和周围单词之间的关系进行建模的方式不同。Word2Vec 的理论基础是 word embedding 中的分布假设,即单词的嵌入表示应该与相邻单词的嵌入表示相似。

GloVe

GloVe 是一种基于全局向量 (global vectors) 的单词嵌入方法。它对所有在语料库中同时出现的单词构建一个共现矩阵,然后使用奇异值分解 (SVD) 进行降维和嵌入学习。与 Word2Vec 不同的是,GloVe 试图利用整个文本的统计信息来为每个单词指定嵌入。

fastText

fastText 是由 Facebook 开发的一个单词嵌入框架,它在使用 n-gram 特征的基础上进行了修正。它将每个单词看作字符 n-gram 的集合,并为每个 n-gram 学习一个低维度的向量表示。最终,单词的表示是其所有 n-gram 分布的加权和。

相似度计算方法

余弦相似度(Cosine Similarity):

余弦相似度是计算两个向量之间夹角的余弦值,范围在[-1, 1]之间。对于嵌入向量A和B,余弦相似度定义如下:

similarity = (A·B) / (||A|| * ||B||)

其中,A·B表示向量A和B的点积,||A||和||B||表示向量A和B的范数(即欧氏长度)。

欧氏距离(Euclidean Distance):

欧氏距离是计算两个向量之间的欧氏空间距离,其定义如下:

distance = ||A - B||

曼哈顿距离(Manhattan Distance):

曼哈顿距离(Manhattan Distance)也称为城市街区距离,是计算两个向量间的距离的一种方法。对于两个向量A和B,曼哈顿距离的定义如下:

distance = ||A - B||_1 = Σ|ai - bi|

其中,ai和bi分别代表向量A和向量B的第i个元素。

这里的||A - B||_1表示A和B之间的曼哈顿距离,因为它表示将A向量沿着每一维上的差距相加得到的距离。也可以说,曼哈顿距离是在一个规则网格上从点A到点B所需的最短路径长度,该路径只能沿着水平或垂直方向移动,不能斜行。

闵可夫斯基距离(Minkowski Distance):

闵可夫斯基距离(Minkowski Distance)是一种计算两个向量之间距离的方法,它是曼哈顿距离和欧几里得距离的一般化形式。对于两个向量A和B,闵可夫斯基距离的定义如下:

distance = ||A - B||_p = (Σ(|ai - bi|^p))^(1/p)

其中,ai和bi分别代表向量A和向量B的第i个元素,p是距离度量的阶数。

当p=1时,闵可夫斯基距离退化为曼哈顿距离;当p=2时,闵可夫斯基距离变为欧几里得距离。

闵可夫斯基距离提供了一种权衡曼哈顿距离和欧几里得距离的方式,在不同的应用场景中可以根据需求选择合适的阶数p。其中,p越大,向量间的差异性越显著;而p越小,向量间的差异性越平滑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
embedding通常是指将高维的数据转换为低维度的表示形式的技术。在自然语言处理中,embeddings被用来表示文本、词语或句子的语义信息。其中,contextual embedding是一种可以根据上下文理解词语含义的方法,比如ELMo和BERT等模型。这些模型通过考虑词语的上下文关系,提供了更准确且具有语义信息的嵌入表示。 除了contextual embedding外,还有其他方法来生成embeddings。例如,引入外部语料库知识比如WordNet,并利用其提取出与未见词语义相似的词来生成未见词的嵌入表示。这些方法假设底层词汇资源已经覆盖了未见词,但这并不一定是真实情况。 总的来说,embedding是将大型稀疏矢量映射到低维空间的技术,以保留语义关系。通过使用嵌套,我们可以将复杂的数据表示转化为更简洁且有意义的表示形式,便于后续的分析和应用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [A Survey on Contextual Embeddings.pdf](https://download.csdn.net/download/wilosny518/13077711)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [自然语言处理中的embeddings](https://blog.csdn.net/u013596454/article/details/120544014)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [嵌套(Embeddings)](https://blog.csdn.net/qq_38382642/article/details/103177452)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值