作者:北京大学苟向阳
编者按:
现代社交网络极大地促进了信息的生成和传播,也加剧了不同信息对用户注意力的竞争。
对于一条信息的传播范围进行预测,能够帮助运营者和用户提前发现潜在的热点,从而为其决策提供指导。
本文将介绍两种基于深度学习的信息传播预测算法。
问题定义
信息传播预测,即为基于一条信息当前的传播路径,预测信息未来的传播范围。具体来说。一条信息在社交网络上的传播可以被抽象为一个传播图 (cascade graph), 如下图所示。传播图上的每一个点代表社交网络上的一个用户,而边则表示该信息被用户 v 转发自用户 u 。t 指从该信息第一次被发布(下图中的
)到该次转发之间经过的时间。给定一个观察窗口
, 我们已知此时间窗口内的所有转发,即 T 时刻为止的传播图。我们需要以此为根据,预测该信息未来还会被转发多少次。
背景工作介绍
早期的信息传播预测主要有两类方式。一类是基于特征的方法:这类方法靠使用者手工提取特征,如信息的内容特征,当前传播的时序特征,结构特征,传播路径上的用户特征等。基于这些特征,使用回归 (regression) 算法来预测信息转发次数。这一类方法的效果非常依赖于特征的提取,对于不同的问题,需要使用者根据自己经验来提取合适的特征。第二类是生成式算法,这类算法设计模型来模拟信息传播机制,力图将信息传播的主要特点保留在模型中,然后运用该模型来计算每一条信息在未来的传播范围。这类算法的主要问题在于预测能力有限,因为其使用的模型一般来自于一些泛用数学模型,如强化泊松过程,而不能准确模拟信息传播。本文介绍的两种方法为生成类算法与深度学习算法的结合。它们将生成类方法中利用的信息传播特点,如自我激励(self-exciting),衰减机制(time decay effect)等,与深度学习相结合,从而在保持可解释性的同时获得更强的预测能力。
DeepHawkes
DeepHawkes 算法来自于2017年CIKM论文《DeepHawkes: Bridging the Gap between Prediction and Understanding of Information Cascades》[1]。该算法将Hawkes 过程与深度学习方法结合。它利用了Hawkes过程中的3个主要机制:1. 用户影响力,不同的用户具有不同的影响力,高影响力用户对于信息传播具有更大贡献。2. 自我激励机制:历史上的每一次转发都使得该信息在未来被转发的可能性提升。3.时间衰减机制:历史转发的影响力会随着时间衰减。
DeepHawkes结构如下图。它将传播图表示为一系列的传播路径,每一条传播路径代表信息从起始点到达某一个用户的过程。DeepHawkes 由 3个部分组成,第一部分为用户embedding,将用户的身份信息embedding 为一个低维的向量,从而表征用户的影响力信息;第二部分为路径编码,使用循环神经网络 (Recurrent Neural Network, RNN) 生成每一条传播路径的向量表示;第三部分为结合时间衰减的加和池化,使用监督学习得到不同时间的衰减系数,然后将每一