【From Word Embeddings To Document Distances】文章的理解
一、方法描述
在文档检索,文本分类,聚类等应用中,计算文档间距离是重要的影响因素
文章提出了一种新的计算文档间距离的方法。用带权重的embedding词云来表示文档,文档间的距离采用A文档中全部词到B文档中全部词的累计最近距离来计算文章间的距离。
该方法有如下几个优点:
1.易于使用,无需超参数
2.它具有很高的可解释性,因为两个文档之间的距离可以分解为几个单独单词之间的稀疏距离
3.它使用word2vec知识进行编码,因此具有较高的检索精度。
二、方法的实现
WMD的计算过程如下.
原创
2021-01-07 00:50:01 ·
219 阅读 ·
1 评论