目录
第六章 网络传播模型与机器学习框架
第一节 引言
研究信息在在线社会网络中的传播,主要有两种方法,一种是采用数学建模进行分析及仿真的方法;一种是利用实际数据进行数据挖掘,采用机器学习方法进行预测。采用第一种模型法对信息传播进行研究的原因主要有两点:一是信息传播过程非常复杂,不采用模型进行抽象和简化,研究起来非常困难;二是在信息传播的早期研究中,实证数据的收集、获取和存储都是比较困难的,代价非常高,采用模型法大大降低了数据的需求。
基于机器学习的信息传播研究范式可以提高网络信息传播预测的准确性,加深我们对信息传播各个环节及其影响因素的理解。
第二节 信息传播模型
网络上的信息传播是人类在社交网站和社会媒体上的一种复杂行为,它受到诸多因素的影响和限制。基于社会网络的拓扑结构,采用一些信息传播模型来研究网络上的信息传播,这是信息传播早期研究中的常用方法。
一、创新扩散模型
一个新技术在社会系统中扩散需要四个必要条件:创新、传播渠道、时间以及社会系统。扩散是一种社会交换行为,因此扩散一定发生在具有结构特点和功能特征的社会系统中,该过程可以是计划性的,或自发发生的。
根据创新实体采纳者的采纳时间,将采纳者分为以下五类:创新者、早期采纳者、早期大多数采纳者、晚期大多数采纳者以及拖后退者。
1969年Bass提出的“Bass扩散模型”:
二、传染病模型
在典型的传染病模型中,种群内个体的状态可以分为如下几类:
(1)易染状态S:个体在感染之前是易感状态,即该个体很可能被其他邻居个体感染。
(2)感染状态I:感染上某种病毒的个体就被称为处于感染状态,该个体还会以一定的概率去感染其他邻居个体。
(3)移除状态R:也被称为免疫状态或者恢复状态。当个体经历过一个完整的感染周期后,该个体就对病毒具有了免疫力,不再被其感染,因此就可以不再考虑该个体。
在传统疾病传播的经典模型中,一个基本假设是种群中所有个体是完全混合的,即一个个体在单位时间内和种群内任一个体接触的机会是均等的。但是在社会网络的背景下,个体只能和他的好友(邻居节点)进行接触,因此传播过程中感染个体只可以将病毒直接传染给和它直接相连的节点。
基本的传染病模型包括SI、SIS和SIR三种。
1.SI模型
SI模型在疾病传播中是最简单的情形,就是一个个体一旦被感染就永远处于感染状态。
SI模型中个体一旦被感染,就不会再恢复成易染状态,因此感染个体的数量是单调递增的。
将该模型应用到信息扩散中,易染状态表示用户尚未知晓信息,感染状态表示永不已收到信息并将信息发给好友。需要注意的是,在现实世界中,病毒的感染个体一般不会可能永远处于易染状态并且永远传染给别人,信息传播也不会这样,因此SI模型是一个最简单的疾病传播模型,但是描述疾病或信息传播时对于有些应用来说过于简略了。
2.SIR模型
在SIR模型中,节点除了由上述两种状态外,还有第3中状态——免疫状态,即用户受到感染被治愈后具有了免疫性,不再被感染,也不会感染其他节点。在信息传播中,免疫状态则表示用户虽已收到信息,但认为该信息不具有价值或对该信息不感兴趣,因此不会发给好友,这些用户成为信息扩散树中的叶子节点。通过不同状态的节点间的相互作用,节点的状态会发生变化,信息从而在整个网络中扩散。
3.SIS模型
SIS模型与SIR模型的区别在于感染个体恢复以后的状态。在SIR模型中,一个感染个体恢复之后处于移除状态;而在SIS模型中,每一个感染个体以定常速率再变为易染个体。SIS模型的微分方程描述如下
上式中的稳态值在传染病学中也被称为流行病状态。
4.信息传播模型与疾病传播模型的区别和联系
信息传播和疾病传播之间存在着很强的相似性,长期以来人们普遍认为个体之间的信息扩散类似于病原体,每一次暴露在知晓信息的朋友之间,都会潜在地导致其他个体成为感染状态(即知晓信息),个体对重复暴露在信息中的响应要比想象中的更为复杂。
同时,在信息扩散和疾病扩散之间也存在显著的差异,这种差异根源于人们处理信息的认知限制。在病原体传播中,具有更多好友的个体更可能感染疾病,而在信息传播中这类人被感染的概率反而会变小。这是因为信息量随着一位用户追随的好友数增加而增大,连通度高的用户不太可能会注意到某一特定的信息,与度值低的用户相比他们往往需要更强的社会信号才会采取行动。在早期的信息传播研究中,使用疾病传播模型的学者非常多。随着人们对于信息传播机制的深入理解以及传播模型研究的精细化,采用疾病传播模型来研究信息传播的相关研究也越来越少了。
三、阈值模型
阈值模型又被称为门槛模型,假设每个人在决定参与某一个活动的时候,都要跨越一个门槛。这个门槛的存在是由行动成本和收益的大小决定的,当行为的成本等于收益的时候,就到达了行为的门槛。
阈值模型可以用于分析社会影响(或人际作用)在信息传播中的作用。社会影响指的是朋友之间相互的影响,这种行为的“传染”是基于社会学习或模仿产生的。社会影响在社会化媒体的信息传播中发挥着重要的作用。
对于信息传播而言,对于每一个信息转发者,当他转发信息的时候,我们同样可以计算他的朋友当中已经转发这条信息的比例,这个比例也就是节点的扩散阈值(或扩散门槛)。
可以将扩散阈值定义为当一个信息转发者转发信息的时候,该用户已经接触到这条信息的次数,即该用户的朋友当中已经转发这条信息的数量。
一个普遍的直觉是不同种类的信息在网上传播的模式不同。研究发现关于在政治上有争议的话题特别具有持续性,反复的暴露对于采纳持续性具有非常大的边缘效应。复杂的传播是原理假定,当一个思想在某些方面有争议时,反复暴露该思想对于其传播是至关重要的。相反,Twitter中跟习语和新词语相关的标签没有持续性,相对于第一次暴露,多重暴露所带来的的影响迅速衰减。
四、级联模型
在该模型中当一个个体变得活跃后,会以一定的概率激活它邻居中的每一个不活跃个体。一个简单的例子是独立级联模型,在该模型中,每个初始激活节点会产生自己独立的扩散级联,级联之间互相独立、互不干扰。模型中一个个体被一个最近活跃的邻居激活的概率独立于过去试图激活它的邻居集合的概率。
网络上的传播动力学理论研究表明:存在一个传播阈值,在阈值一下传染病不会蔓延,而在阈值之上传染病会传播到网络中显著比例的个体。信息扩散相对于疾病传播的一个明显的区别是当信息传给某个体时,该个体是否要将信息传播出去设计个体的决策过程,而疾病传播中则不存在这样的过程。在信息扩散中,尽管在一个社群中感染机会可能有很多个,但是人们在这种重复暴露的情况下变成信息传播者的概率仍可能很低,对于强聚类网络这种效应变得更加明显,最终严重削减了信息在Digg中传播的规模。
五、分支过程模型
一个信息源将信息发给好友,这些好友又将信息发给他们的好友,依次进行下去,发给的好友的数量满足特定的分布。
分支过程的一个基本属性是如果其某一代的个体均不再扩散消息,则消息就会消失。因此,分支过程模型实际上只有两种信息扩散的可能性:一种是没有人再继续传播信息,信息因此经过有限的传播步骤后消失;另一种是人们继续传播信息,这个过程一直在社会网络上无限持续下去。
从基本再生数可知,信息扩散至少跟两个因素有关:一是网络结果,二是人们传播信息的意愿。
信息的扩散与人的行为的异质模式相关,并由参与者的决策所驱动,因此它们的传播动力学会表现出与传统的传染病模型不同的模式。
第三节 信息传播的机器学习分析框架
分析特征量和信息传播之间的关系,传统的研究方式是进行回归分析,先计算网络中的单个特征统计量,然后通过该特征统计量拟合网络中的信息传播指标。这种方式没有考虑类内和类间特征统计量的相互关系及影响力,而且不同网络之间的结果也不具有可比性。基于机器学习的信息传播预测框架,首先计算实证网络的多类别多特征统计量,即特征工程,然后计算各个特征统计量的影响力和相互关系,即特征选择,并对静态、加权、动态统计量进行系统全面的分析,选取最佳的特征选择方法,最后通过有监督的二分类或回归机器学习算法实现信息传播预测。
大数据背景下的信息传播预测研究涉及四个步骤:数据获取与预处理、特征工程、特征选择与评价标准。对于数据获取来说,分析某个话题的信息扩散主要有两种方式。一种方式是描述包括某个主题下所有信息的扩散情况;另一种方式是仅仅分析一条信息完整的扩散情况,得到按照时间次序每一个转发者的信息,以及转发者相互之间的信息转发情况,进而可以构建单条信息的扩散树。
在很多研究中,主要针对第二种分析信息传播的方式进行研究,即描述单条信息扩散的特征。除了对单条信息的诸多方面进行描述,也可以分析影响信息传播的各种因素。
第四节 影响信息传播的其他因素
一、用户地理位置
随着智能手机的普及,在线社会网络中的空间信息已变得越来越容易获取,本地信息对于定向营销和个性化服务也越来越重要。新闻消息通过社会网络每天在各个城市间传播,用户好友的空间位置会在很大程度上影响这些信息将要被扩散到的区域,从而导致一些用户相对于其他用户可以更容易、更有效地传播到某个特定的地理区域。传统社会网络研究中的一些度量可以扩展到空间社会网络上,如空间度、空间紧度中心性、空间效率以及局部聚类系数,这些度量可以定量刻画社会连接对某一区域信息扩散的影响。
在新浪微博上,我们也很容易发现不同地理位置的用户对不同的地域突发事件的关注程度有很大不同,不同地域的用户对于统一信息关注的内容也是不一样的。
二、信息自身属性
信息本身的属性会影响社会网络中的信息传播。不同种类的信息在网络上传播的模式不同。
我们发现政治类和运动的持续性指数值较高,而习语和音乐的则较低。一方面,这表明控制与政治类和运动相关标签的传播机制相对于均值更具有持续性,反复暴露于使用这些标签的用户之下会正面影响一位用户最终使用该标签的概率。另一方面,对于习语和音乐,反复暴露的影响与平均相比相对于峰值会迅速下降。
在没有直接的面对面互动和缺乏非语言信息的情况下,情绪仍可以在社交网站中进行传播。
虽然用户的活跃度和粉丝的数量对于趋势的创建和传播贡献不大,但是社会网络中的用户对主题内容的共鸣在引起趋势形成方卖弄担当了主要角色。也就是说,其他用户的转发对于引发趋势至关重要,这些转发更多的是跟分享的内容而不是用户的属性相关。
三、用户属性
用户自身的属性会影响社会网络中的信息传播。
不同类型的用户在信息扩散中扮演不同的角色。一方面,对于任何主要的主题,大众媒体在将消息传播给绝大多数受众方面扮演了极其重要的角色,它们有很多粉丝,它们的连接被很好地互惠,在收集其他用户各种各样的观点方面具有拓扑上的优势,它们的微博即使没有其他有影响力用户的帮助,也可以直接传播到大量的受众那里。另一方面,不同于传统媒体,Twitter中的大众媒体并不是第一个报告事件的,事实上在某些情况下往往是那些连通度不高的草根或传教士引发了新闻或谣言的扩散,即便是在没有大众媒体报告这些主题的情况下。
四、用户间趋同性
用户间的趋同性也会影响信息扩散。Twitter中用户属性之间的相似性可以显著地影响信息扩散速度,并且两者之间的关系与扩散信息的主题以及用以刻画扩散程度的参数密切相关。
在社会学中一个重要的观察结果是趋同性构成了个体的自我网络并影响了他们的交流行为,从而可能影响信息扩散的机制。属性趋同性的影响可以由那些可预测的特性在解释实际扩散和外部的时间变量方面的能力来定量刻画,在给定特定的度量和主题的情况下,趋同性属性可以影响信息扩散的可预测性。在大多数情况下相对于不考虑趋同性,属性趋同性可以在预测实际的扩散和外部趋势方面提高15%~25%的性能。借助于趋同性,在预测扩散特性方面相对于基线技术可以提高13%~50%的性能。
社会网络中同伴影响和趋同性均会对信息扩散产生影响,但二者的权重有所不同。随着时间变化,节点的属性和行为往往与社会网络结构密切相关,虽然连在一起的节点间的同配混合和行为的时间簇被用来支持网络中的同伴影响和社会扩散,趋同性也可能解释这些现象。
五、用户活跃时间
用户的转发行为具有特定的时间分布,因此,用户的活跃时间因素也是影响微博信息流行度的主要因素。对用户活跃时间的分析,有助于在线营销以及信息传播预测。
在社会网络中用户的活动模式,比如阵发式的活动模式,也会对信息扩散动力学产生影响。用户相应时间上高度的异质性是在集体层面信息传播缓慢的主要原因,也就是说用户活动的高异质性可控制信息传播。
人的交流活动具有阵发特性,且经常发生在群组对话中。人际交流的阵发特性和存在群组对话是理解社会网络中信息扩散的两个主要的动态组成部分,这两种竞争性的特性对于信息扩散会产生两种对立的影响:阵发特性阻碍了信息大范围的传播,而群组对话则有利于小范围的快速信息级联。
第五节 特征选择方法
特征选择是指从原始特征集中选择出能使某种评价指标最优的特征子集。其目的是剔除冗余特征,从而达到减少特征个数、缩短模型训练时间和提高模型精确度的作用,使分类或回归任务能够达到接近或优于特征选择之前的预测结果。
可采用最大信息系数和基于模型的特征排序这两种特征选择方法来对特征工程得到的特征进行筛选。其中,基于模型排序可以直观地看出各个特征在模型训练中的重要性;MIC可以得到特征之间的相互关系,从而剔除影响较小和相似性高的冗余特征。通过使用基于模型的特征排序方法和最大信息系数衡量特征之间的关系,不但可以降低维数,降低计算量,而且降维后得到了与特征选择之前接近的预测结果。
一、基于XGBoost模型的特征排序
特征选择方法大致可以分为过滤法和封装法,这两种方法的主要区别在于特征选择与机器学习分类算法的结合方式不同。过滤法是将所有的特征作为初始的特征子集,然后采用与类别相关的评价指标来衡量特征对类别的区分能力,由于特征选择过程独立于分类过程,过滤方法仅依靠数据的内在属性来评估特征的相关性。这种方法的关键就是找到一种能度量特征重要性的方法,如Pearson相关系数,信息论理论中的互信息等。封装法是将模型假设搜索加入到特征选择过程中,即搜索算法被“封装”到分类模型中,是以达到最大分类准确率为引导的一类特性选择方法。
在封装模型中,分类算法被当作一个黑盒用来评价特征子集的性能,其特征选择利用分类学习算法的性能来评价特征本身的优劣。因此,对于一个待评价的特征子集,封装法需要训练一个分类器,根据分类器的性能对该特征子集进行评价。
XGBoost是eXtreme Gradient Boosting的简称,它是Gradient Boosting Machine的一个C++实现。它不同于传统的GBDT,只利用了一阶导数的信息,而XGBoost对损失函数做了二阶泰勒展开,并在目标函数中加入了正则项,整体求最优解,用以权衡目标函数和模型的复杂程度,防止过拟合。除理论与传统GBDT存在差别外,XGBoost的设计理念主要有如下几个优点:速度快、可移植、少写代码、可容错。
基于模型的特征排序方法,主要是根据算法模型的预测性能来评价特征子集的优劣。借用XGBoost机器学习算法,可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性。在XGBoost算法中,特征评分可看成是被用来分离决策树的次数,特征的评分越高,则说明该特征越重要,对于算法性能的影响越大。
二、基于最大信息系数的特征相关性分析
Pearson相关系数已被广泛应用于基于向量空间模型的文本分类和用户喜好推荐系统中,其定义为:
最大信息系数定义如下:
MIC具有普适性、公平性和对称性的优点。
MIC度量具有均衡性。
MIC度量具有对称性。
第六节 信息传播的机器学习评价指标
一、分类问题的评价指标
1.混淆矩阵
混淆矩阵,又被称为错误矩阵,通过它可以直观地观察到算法的效果。
2.准确率
准确率,又叫阳性预测值,考察转发预测模型的准确性。在模型预测为正类的样本中,真正为正类的样本所占的比例。其数学公式为:
一般情况下,查准率越高,说明模型的效果越好。
3.召回率
召回率,又叫查全率,主要衡量的是在所有真实正样本中,分类器中能找到多少。
4.F1值
F1值是准确率和召回率的综合度量指标,其数学公式为:
5.精度
精度,又叫总体准确率,体现了分类器对整体的判断能力,即正确预测的比例。具体的计算公式为,即
一般情况下,模型的精度越高,说明模型的效果越好。
二、回归问题的评价指标
一般来说, 回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能很好地拟合实测数据。如果能够很好地拟合,则可以根据自变量做进一步预测。
1.均方误差
均方误差是参数估计值和参数真实值之差平方的期望值,它可以说明预测模型和实验数据之间的温和程度。
2.均方根误差
均方根误差是均方误差的算术平方根,它能够更好地反映预测值误差的真实情况。
3.平均绝对误差
平均绝对误差是绝对误差的平均值,它也是反映预测误差实际情况的一个统计量。
4.平均绝对百分比误差
第七节 基于实证数据的信息流行度预测
一、实证数据的说明
一条微波发出去以后,只需要观察其在之后一小段时间内的转发情况,它的传播规模便可以被预测。
二、网络特征的分析
发微博节点的社会影响力对于微博信息的流行度具有很强的影响,社会影响力是一个用户影响他人的观点、情感和行为的现象,在社会网络上可以使用一些网络特征来进行刻画。
三、其他类别特征的分析
四、信息流行度的预测结果
本章小结
本章首先介绍了信息传播的几种经典模型,分别为创新扩散模型、传染病模型(SI、SIR、SIS)、阈值模型、级联模型与分支过程模型。上述介绍的模型虽然经典,但目前在研究中已很少直接应用,我们通常看到的都是它们的改进或扩展模型。此外,这几种模型都具有各自的特点,如分支过程模型侧重于信息扩散树、级联模型侧重于扩散过程中个体的激活状态与休眠态。没有一种模型是万能的,每种模型都有自己擅长的方面,同时也有自己的缺陷。因此要对信息传播进行建模时,必须根据自己的研究目的来选择合适的模型。
在模型中往往仅考虑影响信息传播的主要因素,而现实中影响信息传播的因素非常多。在社会科学领域,往往利用统计的方法来研究影响信息扩散的诸多因素,最常见的是使用回归模型。一般我们会挑选影响信息扩散的一些潜在因素,通过对回归模型的分析进而获得每种因素在影响扩散中的权重或重要性。而在自然科学领域,常用的方法是构建一套涉及特征工程、特征选择和评价标准的机器学习框架。
针对特征工程,本章介绍了在社会网络中可以对信息传播产生影响的因素。这些因素除了网络结构特征外,也包含了用户地理位置、信息自身属性、用户属性、用户间趋同性、用户活跃时间等多方面的特征。特征选择方法是要计算各个特征统计量的影响力和相互关系,并对静态、加权、动态统计量进行系统全面的分析,本文主要采用了基于XGBoost模型的特征排序和基于最大信息系数的特征相关性分析两种方式。前者看出各个特征在模型训练中的重要性,后者可以得到特征之间的相互关系,从而剔除影响较小和相似性高的冗余特征。在信息传播预测方法准确性方面,最终要通过评价标准来实现,因此本文将用户传播行为预测对应为分类问题、信息流行度预测对应为回归问题,基于机器学习框架和信息传播相结合提出一套指导性评价框架体系。最后,通过一个实例说明了如何基于该框架进行真实的信息传播预测。
本章提出的研究框架是通用的,不仅可以用在信息传播中,也可以用在其他计算社会科学的研究中。通过这一通用研究范式,相信未来会揭示出信息传播过程中同类别特征和不同类别特征间更多引人入胜的联系。我们的初步结果发现,在信息扩散中,社会网络结构提供了传播的平台,信息属性刻画了自身的吸引力,用户属性刻画了用户的偏好性、活动性和影响力,而用户行为则刻画了他们的行为模式。在这些因素中网络结构和用户行为模式往往较易刻画,但信息属性和用户属性不易计算,且二者都是多维度的属性。信息属性中不仅包含了主题类别,也包括了信息的感情色彩、蕴含的情绪和信息来源,用户属性中既包含了用户特征的多维度度量,也包括了用户间的关系类别。此外,信息与用户之间会产生相关性,最显著的是用户对信息的亲和性,每位用户都有自己特别感兴趣的信息,也要丝毫不感兴趣的信息。今后,对信息属性和用户属性的刻画和度量将是研究的重点和难点。