glove

GloVe是一种无监督学习的词表示模型,通过全局词-词共现统计训练得到,捕捉语义关系。它可以用于发现同义词、关系等,但对同形异义词识别不足。GloVe被广泛应用于语义分析和向量空间模型的构建,如SpaCy库,并在医疗等领域检测特定关系。
摘要由CSDN通过智能技术生成

1. glove模型概述

Glove是一个分布式词表示模型,该模型是包含词的向量表示的无监督学习算法。这是通过将单词映射到有意义的空间来实现的,其中单词之间的距离与语义相似性有关[1]。训练是在来自语料库的聚合全局词-词共现统计数据上执行的,结果表示展示了词向量空间的有趣线性子结构。它是斯坦福大学的一个开源项目[2],于 2014 年推出。 作为无监督学习词表示的对数双线性回归模型,它结合了两个模型族的特征,即全局矩阵分解和局部上下文 窗口方法。 [3]

2. Glove模型应用

GloVe 可用于查找同义词、公司-产品关系、邮政编码和城市等词之间的关系。然而,无监督学习算法在识别同形异义词(有相同的拼写,但含义不同)方面效果不佳。这是因为无监督学习算法为具有相同形态结构的单词计算一组向量[4]。SpaCy 库也使用该算法来构建语义词嵌入特征,同时计算与距离度量(如余弦相似度和欧几里德距离方法)匹配的top列表词[5]。 GloVe 还被用作在线和离线系统的词表示框架,旨在检测患者访谈中的心理困扰[1]。

3.参考文献

[1] Abad, Alberto; Ortega, Alfonso; Teixeira, António; Mateo, Carmen; Hinarejos, Carlos; Perdigão, Fernando; Batista, Fernando; Mamede, Nuno (2016). Advances in Speech and Language Technologies for Iberian Languages: Third International Conference, IberSPEECH 2016, Lisbon, Portugal, November 23-25, 2016, Proceedings. Cham: Springer. p. 165. ISBN 9783319491691.

[2] GloVe: Global Vectors for Word Representation (pdf) "We use our insights to construct a new model for word representation which we call GloVe, for Global Vectors, because the global corpus statistics are captured directly by the model."

[3]Kalajdziski, Slobodan (2018). ICT Innovations 2018. Engineering and Life Sciences. Cham: Springer. p. 220. ISBN 9783030008246.

[4] Wenig, Phillip (2019). "Creation of Sentence Embeddings Based on Topical Word Representations: An approach towards universal language understanding". Towards Data Science.

[5] Singh, Mayank; Gupta, P. K.; Tyagi, Vipin; Flusser, Jan; Ören, Tuncer I. (2018). Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers. Singapore: Springer. p. 171.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值