1. glove模型概述
Glove是一个分布式词表示模型,该模型是包含词的向量表示的无监督学习算法。这是通过将单词映射到有意义的空间来实现的,其中单词之间的距离与语义相似性有关[1]。训练是在来自语料库的聚合全局词-词共现统计数据上执行的,结果表示展示了词向量空间的有趣线性子结构。它是斯坦福大学的一个开源项目[2],于 2014 年推出。 作为无监督学习词表示的对数双线性回归模型,它结合了两个模型族的特征,即全局矩阵分解和局部上下文 窗口方法。 [3]
2. Glove模型应用
GloVe 可用于查找同义词、公司-产品关系、邮政编码和城市等词之间的关系。然而,无监督学习算法在识别同形异义词(有相同的拼写,但含义不同)方面效果不佳。这是因为无监督学习算法为具有相同形态结构的单词计算一组向量[4]。SpaCy 库也使用该算法来构建语义词嵌入特征,同时计算与距离度量(如余弦相似度和欧几里德距离方法)匹配的top列表词[5]。 GloVe 还被用作在线和离线系统的词表示框架,旨在检测患者访谈中的心理困扰[1]。
3.参考文献
[1] Abad, Alberto; Ortega, Alfonso; Teixeira, António; Mateo, Carmen; Hinarejos, Carlos; Perdigão, Fernando; Batista, Fernando; Mamede, Nuno (2016). Advances in Speech and Language Technologies for Iberian Languages: Third International Conference, IberSPEECH 2016, Lisbon, Portugal, November 23-25, 2016, Proceedings. Cham: Springer. p. 165. ISBN 9783319491691.
[2] GloVe: Global Vectors for Word Representation (pdf) "We use our insights to construct a new model for word representation which we call GloVe, for Global Vectors, because the global corpus statistics are captured directly by the model."
[3]Kalajdziski, Slobodan (2018). ICT Innovations 2018. Engineering and Life Sciences. Cham: Springer. p. 220. ISBN 9783030008246.
[4] Wenig, Phillip (2019). "Creation of Sentence Embeddings Based on Topical Word Representations: An approach towards universal language understanding". Towards Data Science.
[5] Singh, Mayank; Gupta, P. K.; Tyagi, Vipin; Flusser, Jan; Ören, Tuncer I. (2018). Advances in Computing and Data Sciences: Second International Conference, ICACDS 2018, Dehradun, India, April 20-21, 2018, Revised Selected Papers. Singapore: Springer. p. 171.