【推荐系统】【论文阅读笔记】A Neural Network Approach to Quote Recommendation in Writings

本文提出了一种基于LSTM的神经网络方法来解决引语推荐问题。研究指出,传统方法中的二阶特征计算成本高,而神经网络模型能避免这一问题,适合实际推荐系统。通过学习上下文和引语的分布表示,以及利用作者和主题信息,模型能有效捕捉引语的语义。实验结果表明,这种方法在大型真实数据集上表现出最先进的性能。
摘要由CSDN通过智能技术生成

原作者:谭继伟、万晓军、肖建国

引语(quote pr quotation)是在自己的陈述中抄写别人的话。引语是一种常见的语言现象,常用作引语,以更好地阐明意思或支持自己的观点。正确使用引语通常能使陈述更优雅、更有说服力。然而,使用引语的能力通常受到所知引语数量的限制。有时我们很想在某个地方引用一句话支持我们的观点,但只能对合意的引语产生一些模糊的印象,甚至根本不知道相关的引语。尽管网络上有很多引语库(例如BrainyQuote,引语页面),但即使在今天的搜索引擎的帮助下,也很难找到合适的报价。引用推荐是一项任务,根据作者所写的上下文,自动推荐作者在写作时可能需要的引用。图7展示了quote、context和quote recommendation任务。Tan等人首先介绍了支持我们的观点,但只能对合意的引语产生一些模糊的印象,甚至根本不知道相关的引语。尽管网络上有很多引语库(例如BrainyQuote[1],引语页面[2]),但即使在今天的搜索引擎的帮助下,也很难找到合适的报价。引用推荐是一项任务,根据作者所写的上下文,自动推荐作者在写作时可能需要的引用。图7展示了quote、context和quote recommendation任务。Tan等人。[29]首先介绍了引语推荐任务,并对该任务进行了初步的研究。他们提出了一个learning to rank框架,通过使用许多手动设计的特征对候选引语进行排名,来推荐潜引语。本文表明,在给定的上下文环境下猜测哪些引语可以使用是可行的。

 

Tan等人探索quote recommendation任务的多个特征,并显示上下文-上下文特征最有用。上下文-上下文特征的作用是通过比较训练语料库中的上下文和查询上下文来推荐候选引语。这是一种我们称之为“二阶”特征的特征。相对而言,“一阶”特性,即查询上下文和候选引语之间的直接相关性,对系统的贡献很小。因此,Tan等人]发现很难对引语的含义进行建模或表示。然而,二阶特征的计算代价很高,在实际的推荐系统中是不可接受的。在本文中,我们试图解决上述问题,并以更直接的方式解决引语推荐任务,通过直接建模上下文和引语之间的相关性。

直接建立上下文和引用之间的关联模型的主要困难在于两个方面。首先,引语通常是短文,由一个或几个句子组成,引语不太可能与上下文共享常用词。其次,引用可以通过比喻、隐喻等文学手法,以一种含蓄的方式表达其意义。因此,引语中使用的词可能具有不同于其正常含义的含义。以金哈伯德(Kim Hubbard)的名言为例:“一个好的战线是爱情或战争的一半”,在名言中,“战线”往往更像是“过程”而不是“战役”的意思。所有这些现象使得我们很难理解或表达引用的真正含义,即使使用最先进的自然语言处理技术。

在这项研究中,我们提出了一种基于长短期记忆(LSTM)的神经网络引语推荐方法。我们使用LSTMs学习上下文和引语的分布表示,然后根据所学上下文和引语向量的相关性来完成推荐任务。我们引入一种机制,将有用的引用特性集成到引用嵌入学习框架中,以帮助学习更好地表示引用含义。此外,在所提出的模型中,我们尝试根据不同的上下文和主题,甚至根据不同的作者偏好,学习不同引语中使用的单词的具体嵌入。我们在[29]中使用的基准数据集上进行了实验,并将我们提出的方法与几种最先进的方法进行了比较。

这项工作的主要贡献是:

•我们的工作是首次将神经网络模型应用于引语推荐任务。神经网络模型避免了二阶特征的计算,因而更适合于实际的推荐系统。

•在神经网络模型中,我们利用复杂的LSTM编码器结构来应对学习好的引用语义表示的挑战。我们通过学习的权重向量来利用主题和作者信息,并学习引用词的不同嵌入。实验结果表明,该策略具有较好的学习引用表示的能力。

•在大型真实数据集上的实验结果表明,我们的方法达到了最先进的性能。尽管我们提出的方法只利用了很少的特性,但是它比使用大量手工设计的特性的最新的学习排序方法要好得多。

我们将论文整理如下。第二节介绍了相关工作。在第三节中,我们介绍了报价推荐任务和本文中使用的一些关键概念。在第4节中,我们开始介绍我们提出的方法。在第五节中,我们介绍了引用数据集和实验,以及讨论。最后,在第六节中,我们对本文进行了总结,并介绍了未来的工作。

1.相关工作

     引文推荐任务是一项基于内容的推荐任务,与之最为密切相关的工作是面向科技写作的基于内容的引文推荐。对于基于内容的引文推荐任务,一个典型的方向是利用文本内容来辅助推荐。Shaparenko和Joachims[25]讨论了引文上下文和论文内容的相关性,并将语言模型应用于推荐任务。Huang等人 提出将被引用的论文用唯一的id表示为新语言中的新词,并利用翻译模型直接估计在给定的引用上下文中被引用论文的概率。He等 提出了一种上下文感知方法,用于测量引用上下文和文档之间基于上下文的相关性。一些研究试图通过翻译模型或分布式语义表达来弥补被引论文与被引上下文之间的语言差异。Lu等人。[17] 假设引文语境中使用的语言和被引文中使用的语言是不同的,并提出使用翻译模型来弥补这一差距。Tang等人提出了一个联合嵌入模型来学习上下文和引文的低维联合嵌入空间。Huang等人 提出学习单词和被引用文档的分布语义表示,然后利用神经概率模型估计给定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值