Word Embedding与analogy reasoning(词嵌入与类比推理的过程)

42 篇文章 0 订阅
19 篇文章 1 订阅

1. 引入

Word Embedding是"词嵌入"的意思,这是语言表示的一种方式。它可以让算法理解一些类似的词。
简单理解,就是词向量,代替one-hot编码做词向量。词嵌入比one-hot编码有更多优点:

  1. 词嵌入可以用一个低维向量来表示词向量,而one-hot编码一般维度一般都比较高

  2. 词嵌入可以表征词的相似性,语义上相似的词,其词向量也比较接近

  3. 通用性强,在分类,回归,NER等应用中,都可以使用

词嵌入表示的词向量,还有一个很常见的应用,是 analogy reasoning (类比推理)。类比推理是什么呢?接下来我们就用示例来说明。

2. 类比推理

假设下表能表示"man", “woman”, “king”, “queen”, “apple”, "orange"这几个单词的词嵌入(词向量),比如 man=[-1,0.01,0.03,0.09]

在这里插入图片描述

我们有这样一个问题:

  • man如果对应woman
  • 那么,king应该对应什么呢?

从语义上进行推理,我们当然知道king对应queen。但词嵌入,就是用来在数学上进行推理的,用数学推理来进行语义推理,这样机器才有了智能。推理过程为:

  1. 计算 man-woman

下面Eman表示man的word Embedding,其他同理。

Eman = [-1,0.01,0.03,0.09]

Ewoman = [1,0.02,0.02,0.01]

Eman - Ewoman = [-2,0,0,0] ( 这里用了近似计算,太小的数就认为是0 )

  1. 计算 king 与其他每个词的减法

当我们计算到 queen时,得到

Eking - Equeen = [-2,0,0,0]

这个结果正好与 Eman - Ewoman 的值相同(非常近似)。这样就说明了上面提出的问题,man如果对应woman,则king应该对应queen。

而这个向量差值,[-2,0,0,0],也有自己的含义。再看上图,我们发现向量第一个维度是Gender,向量差值其他维度值都为0,所以说明“king和queen之间差别最大的,就是Gender”。

  1. 总结

在进行推理时,就是要找到某个词X,满足

Eman-Ewoman = Eking-Ex (近似相等即可)

所以,

Ex = Eking - Eman + Ewoman

就是说,问题被转换为:要找到词嵌入向量与Ex计算得到的结果最相似的词。

通过这种对词嵌入“做减法”的方式,来做类比推理,Andrew总结说,准确度只有30%~75%

  1. 如何计算相似性

cosine similarity是做 类比推理 最常用的相似度计算方法。

cosine(x)函数,当x为0时,其值为1。

欧式距离也可以计算相似性,他与cosine不同的地方在于:他们对距离的标准化方式不同。

当然Andrew Ng觉得cosine相似度更常用。

  1. 通过上面的推理方式,我们还能推理得到下面的几个结果

(1)Man对于Woman,相对于Boy对于Girl

(2)Ottawa对于Canada,相当于Nairobi对于Kenya
(Ottawa是Canada的首都,后者类似)

3. 总结

本文主要讲述了词嵌入被用于类比推理的具体过程。

4. 参考

  • [1]. Andrew Ng Sequence Models video
在明确了本文的思路之后,从本文的构成便可体会此书的特色以及使用方法,具体介绍如下: (1)本书的绝大部分词汇均来自Princeton所出的1984-1996年全部北美题(及NO.2-NO.9全真练习题)以及1990-1999年国内全真考题,并按GRE中常考意思进行了注解; (2)本书是国内惟一一本以分类形式将所有CRE词汇的意群、考法及考题有机结合在一起的GRE词汇书。 (3)本书的第一章为GRE词汇总分类,其中词汇为7100词左右,可供GRE考生学习和记忆单词用。你可以通过这一章记住同一汉语释义下常考的所有GRE单词,这样当你看到某一词时会联想到其他的相关记号汇,达到词汇的灵活应用。 (4)类比与反义题得分的高低决定了你Verbal部分的成绩,要迅速解好每一题,不但要理解词义,还就熟悉对应关系(即反义中的反义方式、类比中的类比关系),鉴于此,我将所有全真考题及其中词汇进行了精心的分析与整理,并进行了合理的归类,将所有考题中常考的272个互为反义的意群进行了统计与整理,形成本书的第三章。 (5)本书列出了1996-1999年间的最新考题的主考反义题和类比题,考生可以以此识别和把握GRE词汇考试的方向。而且我在第四章对某些类比关系的判断与类比题的解答了部分注解,可以有效地帮助大家解决GRE的类比题。 (6)此书不但对GRE考生有很大的帮助,同时也可以供其他英语学习爱好者记忆和提高词汇量使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值