如下两句话:
(1)乔布斯执掌的苹果成为全球市值第一的公司。
(2)山东产的苹果,又大又圆,很好吃 。
在对苹果这个词进行语义理解时,有了Attention,就能通过上下文来辅助判断。
比如第一句话的,上下文中的乔布斯和公司两个词贡献很大,我们能将“苹果”理解为是一个公司。
第二句的“苹果”,有个“产”字和“吃”字,我们能将“苹果”理解为是一种水果。
为什么双向RNN不能通过上下文理解,判断“苹果”的语义,而Attention就行?
因为RNN通过一个隐藏层记录当前及之前所见过的词汇,已经将语义信息杂糅在一起,而往往理解“苹果”这个词的语义时候,通过几个词就行,而不是整句。