如何评估词向量?

如何评估词向量?

目前词向量的评估一般分为两大类:extrinsic 和 intrinsic evaluation

即内部评估和外部评估。

内部评估

内部评估直接衡量单词之间的句法和语义关系。这些任务通常涉及一组预先选择的查询术语和语义相关的目标词汇,我们将其称为query inventory

similarity 相关性度量

当前绝大部分工作(比如以各种方式改进word embedding)都是依赖wordsim353等词汇相似性数据集进行相关性度量,并以之作为评价word embedding质量的标准。然而,这种基于similarity的评价方式对训练数据大小、领域、来源以及词表的选择非常敏感。而且数据集太小,往往并不能充分说明问题。

评价数据集往往是成对的单词,两个单词的embedding余弦相似度计算出来应该具有较高的相关性(Spearman或Pearson)和人的主观评价分数。

word analogy 类比推理

假设给了一对单词 (a , b) 和一个单独的单词c,task会找到一个单词d,使得c与d之间的关系相似于a与b之间的关系,举个简单的例子:(中国,北京)和 日本,应该找到的单词应该是东京,因为北京是中国的首都,而东京也是日本的首都。 在给定word embedding的前提下,task一般是通过在词向量空间寻找离(b-a+c)最近的词向量来找到d。

此方法来源于Mikolov et al. (2013a),并流行开来。

外部评估

应用到下游任务

比如词性标注、命名实体识别、句法分析、句子分类等,将词向量作为输入,衡量下游任务指标性能的变化。

但这种评估只能方法只是提供了一种证明embedding优点的方法,而不清楚它是如何与其他衡量指标联系其他的。也就是说,基于具体应用的评价是一种间接方式,中间还隔了一层。

虽说如此,根据论文Evaluation methods for unsupervised word embeddings,还是这种方法最好,并且此论文提出了新的评估方法。

可视化

也可以做可视化来展示,使用t-sne等

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值