论文题目:HINTS: Citation Time Series Prediction for New Publications via Dynamic Heterogeneous Information Network Embedding
论文地址:https://dl.acm.org/doi/10.1145/3442381.3450107
论文来源:2021 WWW
论文源码:https://github.com/songjiang0909/HINTS_code
关键词:Citation prediction; time series; dynamic heterogeneous information network; science of science
1.前言
该论文用于在动态引文网络中预测新发表论文的被引用时间序列,解决了现有方法的弊端:需要利用论文发表后前几年的引用情况作为引导值来预测后几年的引用情况。针对该问题提出了HINT框架,能够通过编码论文发表前的历史信息,从发表日期预测新论文的被引时间序列,可用于解决冷启动问题。
2.问题定义
给定动态引文网络以及新发表的论文p(p不在
中,学习函数f(·)预测论文p在未来L年的被引时间序列:
3.模型
HINTS模型图如下:
3.1 Motivation for HINTS
这一部分介绍预测论文被引情况需要捕捉的几个因素。
第一类是metadata,异构网络中与论文实体相关的几类实体,包括论文的关键词、发表期刊、作者以及引文。
第二类是时序信息。
第三类是无形的因素fitness,比如,工作的严谨性或其贡献的价值等。
3.2 Dynamic Heterogeneous Network Embedding via Temporally-aligned GNN
这一部分编码了动态异构信息网络(DHIN)中的metadata以及时序信息,学习了新论文发表前的所有时间片上所有实体的embedding。
首先在每一个静态时间片上,利用relational graph convolution network (R- GCN)来聚合不同类型的邻居信息:
然后基于动态引文网络中各种实体变化很小的假设,提出了时序对齐的正则化项,使得相邻时间片实体的embedding更相似:
3.3 Weighted Embedding Imputation
这一部分将各个时间片metadata的embedding进行加权得到新论文p的pseudo-leading values序列,在时间片t的pseudo-leading values计算公式如下:
3.4 Time Series Generator
这一部分利用pseudo-leading values序列来推测论文未来影响力,即学习函数。
最直观的方法是利用编码器-解码器框架(例如seq2seq),但是这种方法有两个缺点:(1)解码器只能生成设定好长度的序列,不能生成灵活的长期的被引预测。(2)对于被引情况已有很多证实的假设,这种方法不能利用这些重要的假设。
该模型用对数正态分布模拟了新论文被引轨迹:
其中𝜇𝑝表示论文p到达引用峰值的时间,𝜎𝑝表示论文p引用的下降率。并且用参数𝜂𝑝模拟在3.1中讨论的“fitness”因素,被引量应正比于“fitness”因素。预测的累积引用数用对数正态分布的累积分布函数表示如下:
三个参数𝜂𝑝,𝜇𝑝,𝜎𝑝通过pseudo-leading values 𝑉𝑝 得到,然后用来预测引用值。得到三个参数的具体过程是:首先将序列通过RNN得到一个单个向量I𝑝,然后将I𝑝分别输入到三个MLP中得到三个参数。 三个参数得到预测累积引用值
后,转化为每年的预测引用值。
Loss函数是将预测引用值与真实值做Mean Square Error:
最终的目标函数加入了3.2中的时序对齐正则化项:
4.实验
4.1 评价指标
4.2 预测结果
5.讨论
该论文可以在无引导值情况下预测新出版论文的被引序列,很好地运用了历史信息解决了冷启动问题。
存在问题:(1)更多的论文属于低被引量,该模型趋于高估此类论文的被引量;(2)由于该论文在预测论文被引量是基于对数正态分布,所以很难预测在发表多年之后才被大量关注的论文。