微博热度预测研究综述

本文综述了微博热度预测的研究,包括热度的定义与计算方式、基于特征、时序和用户行为的预测方法。研究发现,特征、时序和用户行为的结合是预测主流,深度学习和集成学习算法技术在热度预测中表现优越。然而,数据集的不公开和算法的鲁棒性仍是挑战,未来研究需关注深层多模态内容的影响和不同领域的热度差异。
摘要由CSDN通过智能技术生成

摘要

【目的】对现有微博热度预测研究展开多角度调研,讨论现有研究不足,展望未来发展趋势,为后续研究提供参考。【文献范围】本文整理和总结了近5年的国内外相关文献。【方法】本文首先介绍了热度预测问题的定义与热度计算方式,然后将热度预测研究方法从特征、时序和用户行为三个方面深入分析,再对热度预测问题的关键技术展开广泛调研,最后针对存在问题进行总结和展望。【结果】基于特征的热度预测方法因其定制性强被广泛使用,与深度学习和集成学习算法技术结合更是研究主流。【局限】由于各研究数据集未公开,本研究无法用统一的标准对所有算法技术的提升水平做横向对比。【结论】微博热度预测问题对于舆论监控、商业营销和内容推广等都具有一定意义,在社交媒体持续流行的时代,热度预测研究将会被继续深入推进。

关键词: 热度预测; 微博; 机器学习; 深度学习

引言

近年来,随着TwitterFacebook、微博等各大社交平台的广泛应用,以文本、图片、视频的形式发布高时效性内容已经成为社交平台中信息传播的重要方式,以亿为单位的信息量正在爆炸式增长,同时也随着网络被快速传播。对于信息热度的关注和管控需求随之产生,社交平台中信息的热度预测问题已成为学者较为关注的研究点,国外学者以Twitter为主要研究平台,而微博作为国内用户体量巨大的短时传播社交平台[1]受到更多国内学者的关注。对微博热度准确且及时的预测,对于政府层面的舆情管控、商业视角的品牌营销以及自媒体信息推广等领域都具有一定意义。

在此类综述和研究中,学者G Ji[2]等人从基于特征的方法、时间序列方法、协同过滤方法[3]和深度学习方法对热度预测领域开展调研;而学者ZM Nia[4]等人认为热度预测问题可以归为特征驱动和早期阶段两大类,研究方法分类的主观性较强,但特征和时序的方法被较多人认可,而基于传播动力学和数学理论的传染病模型等方法的分类较为模糊。

本研究将站在计算机学科视角,结合不同学者的思想,对2017-2021年间国内外相关文献整理和总结后,首先介绍热度问题的定义与计算方式,然后详细论述微博热度预测研究方法,从基于特征、时序和用户行为这三种视角展开调研,接着从算法关键技术层面分析,讨论近年来该领域常见的技术思想,最后对该领域所存在的问题和未来发展趋势做总结。通过对该领域5年内的相关研究整合、总结和展望,发现当下主流的研究方法和技术创新,发掘潜在问题,以期望为其他学者提供参考和新思路。

1 热度的定义与计算方式

热度是指信息发布后受大众欢迎的程度,经一段时间传播后所呈现的数值表征,某事件经传播后最直白的体现为阅读量、转发量、评论量和点赞量的升高。2014年时,新浪微博平台给出微博热度的定义,微博热度是评价微博是否热门的重要指标,用于描述微博平台中信息传播效果,达到激励作者更好的创作和内容推广的目的[5]。对于微博热度预测,王晓萌[6]等人将其描述为,对内容发布后初期传播过程的观察与统计,预测未来某时间点时该内容的传播值。胡颖[7]等人认为此类研究目的是准确预估网络中的信息在未来某个时间点的热度值或它变为热门的可能性。

热度与流行度、受欢迎程度、博文传播效果[8]和博文影响力所表述的内容相近,计算原理也具有相似性。新浪微博中热度数值的计算,是根据该微博的转、赞数和发布时间等因素以不同的权重计算得出,在满足多图、带话题、长微博和实名认证的条件下再次做加权处理。更多的学者给出不同的热度计算方式,最常见的微博热度计算方式是由博文的转发量、评论量和点赞量构成[9-11],通过赋予三个值不同的权重比例以体现研究期望的侧重性与差异性。除了常规计算方式以外,刘钰[12]结合惠普实验室研究结果,在热度计算中强调微博转发层级,通过计算转发路径中层次与出度数得出热度值。各大商业平台也发布了用于商业排序的微博热度计算方法,比如清博大数据平台中将BCIMicro-blog Communication Index)指数[13]划分为微博账号的活跃度与发布信息的传播度。账号活跃度由博主所发布的博文数和原创微博数构成,而传播度由转评赞数值构成,其中原创微博转评数的计算权重大于转发微博的计算权重,这种微博热度计算方式更强调账号原发微博的传播力。

微博热度大多是指单条博文所产生的传播效果,而在研究主体是微博话题时,热度计算方法主要有两种,一种是直接采用话题下发博数或话题阅读量作为该话题的热度值,另一种是采用多种因素计算的形式得出话题热度值。Q Meng[14]等人在时间特征的基础上,根据话题影响力指数选取话题热度预测特征,使用主成分分析(Principal Component Analysis, PCA)方法计算话题热度预测指数的权重,得到热度值的表达式。李勇[15]先对单条微博的发博者粉丝数、博文转评赞数与热度衰减函数计算得出单条博文热度,再将话题下所有单条博文的热度相加得出话题热度。经调研可知,针对话题热度的计算方式较多建立在单条博文之上,结合话题下发博量、话题持续时间等信息得出,话题热度预测与博文热度预测原理相似,因此本文中不对话题或博文进行划分。

目前学术界对于微博热度的定义基本一致,而计算方式有所差异。研究人员通常倾向于关注转发量评论量点赞量这类用户真实互动后产生的数据,结合传播深度、发布的博文条数和时间等相关因素实现对热度的计算。

2 热度预测研究方法

热度预测研究方法根据实现原理进行区分,可以划分为基于特征、基于时序和基于用户行为三类主流方法。

2.1 基于特征的热度预测方法

在微博热度预测中,基于特征的热度预测方法来源于有监督学习中特征工程的构建思想,通过大量数据和所建立的特征模型,考察给定数据的预测结果。特征作为影响热度变化的重要因素会影响模型的预测效果,特征的选取成为此类问题的关键研究点。

陈梦秋[16]等人先利用网页排名(PageRank, PR)算法计算出博主的用户影响力,再将博主用户影响力与博主最近微博热度、博文是否原创、发布时间、信息量、是否含有标签和是否带图/视频/链接作为相关特征对博文热度展开预测。郑志蕴[17]等人从博主特征和内容特征两个方面考察对博文热度的影响,内容特征包括综合词频、是否含有图片/视频/长微博以及是否有表情,而博主特征包括粉丝数、被转评赞数。于海[18]等人从传播结果子图、参与用户影响力、事件话题语义以及事件代表性博文特征四个方面提取影响微博热度的相关特征,可分为内容性因素、影响力因素与结构性因素三种。王新乐[19]等人对影响微博主题标签热度的因素深入挖掘,从微博文本中获取单词数量、URL数量、表情符号数量以及深层次的内容主题特征、情感极性和占比,从标签文本中提取情感特征、人名、数字和文本数量特征,结合时间、地域和粉丝网络结构等特征构建出多维度的特征模型。TBN Hoang[20]等人所提出的模型主要基于用户、时间和内容三种类型的特征。K Wang[21]等人通过考虑博文语义、博文图片、发博者社会关系和博文传播过程等信息,重新审视了热度预测问题,将视觉线索、文本线索和社交线索结合在一起,通过联合嵌入回归模型(Regression Model, RM)证明了基于内容的特征可以用于改进社交特征和动态特征。H Zhu[22]等人创新地在热度预测中提出传播加速度这一新特征,结合传播加速度、信息发布初期的热度和用户活跃度完成特征模型的构建。

现有的研究中对于文本特征和用户特征的考察较为深刻[23-25],更多学者深入考虑其他因素所带来的影响。J Lv[26]等人从图片中提取视觉特征和社交特征,该研究所使用的社交媒体平台并非是微博,但针对视觉特征的理论研究有重要参考价值。学者M Meghawat[27]M Gayberi[28]所关注的多模态特征也基本集中在视觉、文本和社会特征三个方面。T Liu[29]等人围绕政治事件、社会事件和非公开事件三种类型的博文进行研究,结果表明事件类型在可预测性方面有所不同,比如政治事件的热度会高于其他类型事件。Y Luo[30]等人提出了一种针对政务领域的政策信息热度预测方法,从语境信息、社会信息和文本信息三个维度提取特征,分析后得出主题分布、人气竞争强度和热点信息相关性等是有效特征。这两个研究也为特征选取带来了思考:在热度预测时,博文所在领域(如政务领域、娱乐领域)和其内容主题(如马航370事件)具有一定差异性,受众对某领域的潜在认知和领域本身固有影响力对于传播效果评估和热度预测也具有一定影响,这一点值得学者们关注。

经初步统计,学者们所关注的特征分类如表1,主要集中在发博用户特征、博文内容特征、信息传播特征、时间特征和其他这五个方面,该现象与特征获取难易程度、相关度有关。

1   影响微博热度的特征分类

Table 1  The classification of features affecting the popularity of microblog

特征类别

常见子特征

发博用户特征

认证、地区、标签、生日、注册时长、年龄、粉丝数、关注数、发博数、近期活跃度、过往被转评赞数、影响力等

博文内容特征

信息量、主题、情感倾向、语义、外链/表情/图片数量、是否包含图片/视频/链接/长微博/表情、是否原创、是否含话题标签、是否涉及明星/名人/影响力用户等

信息传播特征

传播层级、出入度、传播速度、传播子网体量大小等

时间特征

发布日期、发布时刻、时间差等

其他

图片/视频的视觉特征、话题所在领域背景等

新窗口打开下载CSV

在实际研究中,受特征提取工作量的限制,通常会优先选择有效的特征因素。为进一步考察各特征的有效性,本研究将各文献特征按本文的五种特征类别划分,以特征在数据集中的表现作为有效性参考,如表2所示。其中,关键子特征是该文献特征中具有良好表现力的子特征,“*”的数量越多表示子特征越有效。

2   多种特征的有效性对比

Table 2  Effectiveness comparison of multiple features

文献编号

特征类别

关键子特征

有效性评估

[17]

发博用户特征

粉丝数(**)、过往转评赞数(**)

特征综合>发博用户特征>博文内容特征

博文内容特征

词频(*)、是否包含图片/视频/长微博(*)

  • 23
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗伯特之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值