摘要
【目的】明确提出“内容趋同引力”的现象与分析维度,以考察社交网络环境中存在着的信息趋同现象与特征。【方法】抓取新浪微博的14,111,274条有效帖子样本,采用Word2vec等文本和语义挖掘手段考察:在特定时间周期内,按照同等传播热度切分后的各信息层与全部层的两两相似度,及这种相似度与各信息层热度的关系。【结果】任意两个信息单元G1、G2之间的内容相似度,与这两个单元的热度之和(H1+H2)成正比。“内容趋同引力”的现象和效应,在从单条帖子到多条帖子的微观细粒度和层组大尺度,都是成立的。【局限】对于社交网络内容趋同现象产生的结构性后果及其演化规律还缺乏更为具体和深刻的分析。【结论】“内容趋同引力”效应的探讨视角,为微博信息流通拓展了理论可能空间与实践可预测价值,同时也蕴藏着信息社会“舆论极端”语境、“反公共领域”的信息风险。
关键词: 社交媒体; 内容趋同; 用户生成内容; 同质化; 文本挖掘
引言
在当前的数字时代里,社交媒体的影响深入人们的生活和社会发展进程之中。《数字2021:全球概况报告》[1]显示,截至2021年,全球78亿人口中,互联网用户达到46.6亿,其中活跃的社交媒体使用者达到了42亿。社交媒体在改变旧有传播范式的同时,也引发了一些质疑和反思,人们不应仅仅“热衷于询问新技术带给我们什么”,还需“关注新技术想从我们这里拿走什么[2]”。其中,对“信息茧房”、“回音室效应”、网络“巴尔干化”等现象的关注在社交媒体研究中日渐增长,其担忧中暗含着用户和媒介信息的同质化、意识观念“隔离”等具有社会性和文化性的问题。微博作为一种典型的社交媒体和UGC(user-generated content)场域,在多元化、多样化的传播主体和信息生产情境下,其中所传播的信息是否、如何趋同化,抑或发生着差异化,这一问题在学界和实践中仍存在争论。
本文对新浪微博中的用户生成信息及其扩散和传播展开研究,提出“内容趋同引力”的现象和机制。核心内涵如下:(1)如果把微博某一时间周期内的舆论场中的热度相同或相近的帖子,作为一个个具有某种未知的共同特征、共同约束的“信息层”(层中帖子数≥1);(2)把组成该层的帖子传播热度平均值作为该信息层的热度质心;(3)则这些不同热度的“信息层”之间表现出内容上相互趋于相似的趋势和“吸附”效应;(4)任意两个信息层之间的相似程度,与这两个层的各自热度质心相加的和,成正比。
该观点中:其一,条件限定在有限长度的舆论周期内,例如一天或若干天内。在紧凑的时间周期内,不同帖子的相互语境、内容背景越相通,相互的联系和“文本间性”也越紧密,越有可能反映出相互联系所产生的“内容趋同”引力。其二,关注的不仅仅是单条帖子之间的彼此相似度,也可以推展到从1条到n条帖子构成的“同热度帖子层”之间的层间内容相似度。从微观扩展到宏观,把整体舆论场中的所有帖子切分为一个个不同的层或“谱段”,分析整体之间的相似程度。其三,不同的单条帖子或许有较大差异,但是一层具有共同热度或传播度的帖子会在这个特定的“信息时空切片”中,具有某种未知的共通特征形成的热度谱段,显现出在单条帖子上未必能完整表现的该层“整体”的“家族相似性”和内容面貌。
1 文献探讨与理论分析
媒介内容的扩散、震荡构成的信息场域中,不同的信息之间是否以及如何在内容上趋于相似化,是媒介和信息传播研究中具有重要性的问题。然而,关于网络和社交媒体的内容多样性、用户内容生产中的“去中心化”,以及关于用户本身的文化多样性的大量观点,其理论建基的逻辑仍然主要是:在不同的内容局部之间寻找差异、并确证这种异质化,而不是尝试在信息场域的必定存在的差异和非均匀之中,寻找它们所可能蕴藉的更深层次、更整体性的同质化。美国Pew研究中心在2010年提出:互联网的一个主要忧虑就是人们会使用新科技来使自己退却到狭窄的兴趣中,而那些偶发的新闻资讯有越来越少的趋势[3]。新媒体生态格局的形成更是为舆论信息同质化提供了便利条件。特别是当舆情事件发生时,事件信息很容易从一个媒介流动到另一个媒介,多个媒介对舆情事件不断转载和增量传播的过程就是一个信息递增、音量不断放大的“声反馈”的过程[4]。这些对媒介舆论的信息同质化和“窄化”的担忧,为本文的思考提供了必要的基础,但是也触发了更多的问题:我们不应该只是去推测、去求证媒介信息是不是确实具有趋同化倾向,而需要更为深入地关心,这些趋同化有怎样的程度和条件差异,这些差异又是如何发生和分布的。
总体来说,网络社交媒体在海量资讯时代中是否趋于同质化,正引起日益增多的讨论,虽然尚存在一定的分歧,但较多实证研究仍是认可这一倾向。备受关注的“信息茧房”和“回音室效应”的背景和表现就与舆论信息的同质化有密切关系。Jemison和Cappella将媒体中的“回音室效应”定义为在媒体营造的相对较为封闭的意见感知环境中,意见相近的声音会被不断地重复、夸张和扭曲,从而让处于这个封闭环境中的人对这些夸张和扭曲的极端观点越来越深信不疑的传播现象[5]。学者将与回音室效应相关联的信息过滤机制总结为社会关系网中的过滤机制、个体自身的过滤、算法的过滤机制和平台的过滤机制[6]。
然而,媒介内容的同质化并非抽象和笼统的现象,对规律性特征、机制、影响因素等的探求是现有相关研究所忽略的研究问题。Bourreau等在研究数字化是否导致音乐消费更加单一或更加多样化的问题时指出,考察这个问题需要考虑供应方和需求方的反作用力,以及它们在市场均衡中的互动[7]。与此类似,在社交媒体中,忽略反映用户侧和传播过程的信息,而只关注被生产出来的内容,是有失偏颇的。在社交媒体信息场域中,无论是用户自身、用户所处的关系网络,还是信息本身,都处于圈层化或层级化的状态中,用户注意力是需要竞争的稀缺资源,信息需要得到一定的传播才能拥有可见度和热度,而经过诸多“筛选机制”才能被看见的信息,其多样性是否已经大大降低?是否已经成为符合规范化、模板化的筛选标准的产物?用户个体的信息接收同质化与信息整体趋同之间存在何种关联;以及这种同质化是具备整体的、均匀的特性,还是受到某些局部特性制约而产生分化后的同质化,是比单纯地做出“是否会同质化”的判断更有迫切性的问题。尤为值得关注的是,舆论信息同质化与信息“被舆论化”的程度是否存在关联,以及同质化如何随传导度而产生具体、可预测的变化。
可以推断,在高热度、高反馈度的信息和资讯中,可能存在着某种潜在的内容相近性。诚如有学者指出的,人们的注意力总是会相对集中在高质量的内容上,而忽视那些一般性内容;媒介消费的社会性也促使人们关注具有热度和知名性、社交谈资的内容[8]。较多研究已证明,由于受到平台需求、算法机制、用户偏好等多种因素的影响,信息场域中的高热度内容及其生产者呈现出明显的“窄化”现象[9⇓-11]。一些研究认为,社交媒体的内容可以决定信息的流行度[12],并尝试探索内容与热度的联系。例如,Hong等使用主题模型学习微博文本内容的主题分布,将其作为文本特征预测微博是否流行[13];Ma等发现Twitter上关于相似话题的标签可能同时具备相似的流行度趋势[14];Li等人尝试发现搜索引擎给出的帖子内容与其排序之间的关系,研究者在谷歌上搜索“纳米技术”及其相关词语,高排名、高热度的内容主要是有关纳米技术的环境担忧,而可见性较低的内容则呈现出更多样的图景——同时关注环境、健康、科技、商业以及科研等领域中有关纳米技术的信息[15]。Tatar等发现,推荐系统在相似视频之间建立了强大的链接结构,如果视频出现在其他流行视频的相关推荐列表中,就也会获得高浏览量,这意味着热门、流行的信息可能会加速与其相似信息的流行[16]。相关研究结果所表明的内容主题与其“热度”间的联系,为本文对微博的研究提供了借鉴。
此外,当我们只是注意到舆论场中那些最令人瞩目的信息内容如何趋同和窄化之时,同样也应思考:在热度相对较低的信息之间,是否存在同质化或异质化现象?这是因为,在社会注意力有限的条件下,对海量的微博帖子而言,无论其传播热度属于高、中、低哪种程度,它们都已经进入了公众视域,也能在不同程度上反映出社会舆论之关心与偏好。本文结合实证考察而提出的观点是,信息内容的趋同是广义的、泛在的现象,同时,在特定的信息热度条件下,局部信息内容之间也存在着局部的“趋同引力”。如果舆论场的信息趋同性与“舆论化”程度是相关的,则需进一步验证:在公共信息空间流通的帖子之间,它们趋同化或差异化的程度,与其传播热度间存在着怎样的正向联系。这是本文的关键问题之一。
综合已有研究和关于微博的实证数据,本研究或许并非很恰当地借用物理学的“引力”概念作为比喻,以鲜明地表述微博的“内容趋同”引力现象和趋同机制。起源于牛顿万有引力定律的引力模型,已被应用于研究其他各种课题,如旅游、贸易和人口等[17⇓-19]。也有部分研究将引力模型引入有关信息网络的研究中。有研究者引入重力模型中广泛适用的无约束模型分析节点间因信息流形成的引力效应