[yzhpdh多读paper]Postmortem memory of public figures in news and social media

本文链接：https://blog.csdn.net/ye6pipipihou/article/details/124856619

abstrcat:

文章讨论的是已经去世的公众人物在集体记忆中留存的长短。其通过跟踪2362名公众人物在死前和死后在英语在线新闻和社交媒体(Twitter)上被提及的次数来量化这一现象。得出了英年早逝且非自然死亡的以英文为母语的留在集体记忆中的时间更长，且从长期增长的情况来看，艺术家在社交媒体上被提及次数增长的时间会更长，而领导者反之。我们测量了死亡后注意力的尖峰和快速衰减，并将集体记忆作为交际记忆和文化记忆的组成部分。聚类揭示了四种死后记忆模式，我们阐明了社会记住谁这个古老的问题，以及新闻和社交媒体在集体记忆形成中的独特作用。

keywords:

computational social science | collective memory | news and social media analysis | forgetting

introduction:

在死后被记住是一件贯穿人类历史的很重要的事，但相反的是，很多文化尝试去故意将某人从记忆中抹去，为了解释组织和社会记住或遗忘的过程，法国哲学家和社会学家Maurice Halbwachs在1925年引出了集体记忆的概念。从那以后，集体记忆已经成为许多学科的研究课题，包括人类学、人种学、哲学、历史、心理学和社会学。这也催生了记忆研究的新学科。在过去的几十年里，集体记忆已经从一个纯粹的理论建构转变为一种可以进行实证研究的实践现象

虽然口述传统是人类早期集体记忆的基础，但今天，媒体在决定记忆内容和记忆对象方面发挥着关键作用。研究人员研究了众多媒体在构建已故公众人物死后记忆中的作用。

大量文章对新闻形式的讣告进行了调查，该讣告记录了人们在死亡前后的记忆。

从更长远的角度来看，其他工作考虑了媒体在过去几年和十年中如何记住已故的公众人物

随着生活越来越多的方面转向在线领域，网络作为一个全球记忆场所也变得越来越重要，这促使研究人员进行研究研究社交媒体用户如何使用社交媒体、维基百科编辑对公众人物的死亡作出反应。

一些像对戴安娜、杰克逊等名人死亡的细节分析揭示了人们如何经历和克服名人去世后可能产生的集体创伤。

虽然这种对个人的研究在时间粒度的精细层次上产生了深刻的见解，但由于排除了除一些最杰出的公众人物以外的所有人，因此缺乏广度。这些文章中最缺乏的就是对除公众人物外其他人去世后在社交媒体上的记忆的整体理解。

例如，van de Rijt等人（20）追踪了新闻文章中数千个人名，发现名人往往会在几十年内持续被新闻报道。在一项类似的分析中，Cook等人（19）进一步表明，在过去一个世纪中，名声的持续时间并没有减少。除了新闻语料库，在线百科全书Wikipedia已经成为数据驱动的集体记忆研究的主要资源。研究人员利用维基百科文章（29篇）的文本内容以及编辑和查看的日志，作为对恐怖袭击或空难等创伤性事件的集体记忆的代表。Jatowtet al.（33）描述了维基百科中历史人物的覆盖面和受欢迎程度，观察到15世纪和16世纪以来人们的页面浏览量大幅增加，Jara Figueroa et al.（34）后来将这一事实归因于印刷机的发明。

这篇文章中的Significance：谁在死后被社会铭记？尽管学者和广大公众自古以来就对这个问题进行了推测，但我们仍然缺乏对公众人物死亡、媒体形象固化并致力于集体记忆的过程的详细了解。为了缩小这一差距，我们利用了一个全面的5年在线新闻和社交媒体帖子数据集，每天有数百万份文档。通过跟踪数千名公众人物去世后一年内的提及情况，我们揭示并模拟了死后媒体关注的原型模式和传记相关因素，以及新闻与社交媒体如何记住已故公众人物的系统性差异。

Candia等人（46）分析了数千篇论文、专利、歌曲、电影和运动员，结果表明，集体记忆强度的衰退可以用一个双指数函数来很好地描述，该函数捕捉了集体记忆的两个方面：“由口头信息传递维持的”communicative memory和“通过信息的物理记录来维持”的cultural memory

关于这篇文章的研究：

我们通过研究新闻和社交媒体对数千名公众人物的报道在他们去世后的一年中是如何演变的来扩展这篇文献。分析的核心是时间序列，即这个人被提到的频率。

我们的方法将Freebase知识库（47）与通过在线媒体聚合服务Spinn3r（48）编制的大量在线新闻和社交媒体语料库相结合，这是一个包含300多万公众人物记录的综合性资料库，每天包括：，谷歌新闻（Google news）索引的6608个英语网站域名中的数十万篇新闻文章和推特上的数千万条社交媒体帖子，约占全英语推特的三分之一。

研究对象：包括2362名公众人物，他们死于2009年至2014年，在新闻和推特上至少得到了最少数量的死前报道。

对于每个人，我们跟踪了他们在死亡前一年和死亡后一年在两种媒体上被提及的每日频率，并通过所产生的提及频率时间序列来操作死后记忆。通过对上述时间序列的分析，文章发现随着公众人物的死亡，人们的注意力会出现极端的峰值和快速衰减，这种模式可以通过一个常数加性偏移的幂次定律很好地捕捉到

对提及时间序列进行聚类分析，发现四个典型死后记忆的模式（“blip闪现(这个英文单词读起来好可爱hhhh”、“slience沉默”、“rise上升”和“下decline降”），回归分析揭示了死后记忆的生物图形相关性，以及主流新闻和社交媒体中死后记忆的系统差异。

Result

我们得出的结论是，在死后英语媒体关注度最大的典型人物可以被描述为一个在死前就已经为人所知、英年早逝、非自然死亡的英语使用者。一般来说，领导者的长期注意力提升最小，而艺术家的长期注意力提升最大。最后，虽然主流新闻和推特都是由年轻人和非自然死亡引发的，但主流新闻——而不是推特——似乎还承担了一个额外的角色，即当一个老人或一位有成就的领导人去世时，作为集体记忆的管家。总之，目前的工作有助于阐明一个古老的问题:谁被社会记住了

一个人i的“原始提及时间序列”指定，对于相对于i的死亡日期(t = 0)的每一天t，在第t天发表的所有文件中，提到人i的文件的分数Si(t)的以10为底的对数。为了减少噪音，我们还使用基于局部线性拟合的可变跨度平滑器生成了“平滑提及时间序列”。对于每个人，文章分开计算了新闻和Twitter的时间序列

对2362个原始提及时间序列（图2）进行平均后，公众人物在死亡后的第一天（第0天和第1天）的兴趣急剧上升，然后急剧下降，直到第30天左右，曲线弯曲进入一个长而平坦的阶段，在死亡后的第365天，只有一个小的二次尖峰略微干扰了这一阶段。spike(主峰)很强，如果不对数变换提及文本的分数Si（t），除了主峰之外，视觉上看不到任何有趣的信息，我们将死后集体记忆S（t）分解为两个部分的总和，S（t）=u（t）+v（t），其中u（t）捕获“communicative memory”，v（t），“cultural memory”

Communicative memory被建模成幂律衰减， $u(t)=a*t^{^{-b}}$ ,而“cultural memory在被考虑的时间框架内（死后400天内）建模成常数 $v(t)=c$ ,我们将此模型称为“移位幂律”，它对经验平均提及时间序列的拟合明显优于文献中的八个备选模型（46、50、51），包括双指数模型。最佳移位幂律拟合如图2中的黑线所示；communicative memory和cultural memory部分分别以绿色和红色绘制，

communicative memory在t=1天开始较高，但在新闻和推特上分别出现14天和18天后，迅速下降到cultural memory以下，分别在31天和36天后仅占总集体记忆的25%，这构成了一个拐点，交际记忆在这个拐点上非常平稳。此外，尽管没有使用死前数据来拟合模型，但恒定的cultural memory非常接近两种媒体中提及文本的平均死前分数。

这表明，平均而言，公众人物在一生中积累了一定的(文化)记忆基线量，在此基础上，在他们死后，会有大量迅速消退的 communicative memory。请注意，尽管在对所有人进行平均时，集体记忆会迅速恢复到死前的水平，但对个人来说未必如此，我们将在下文中看到

支持两种不同记忆模式的进一步证据来自这样一个事实:提到一个公众人物的文本的平均长度随着他的死亡而急剧下降(可能是由于简短的死亡笔记和讣告)，并在大约30天后再次达到死亡前的水平，根据拟合模型，在拐点处 communicative memory趋于平稳。

因此，我们将去世后的时期分为两个阶段：短期（第0天到第29天）和长期（第30天到第360天）。基于这种区别，为了对提及的时间序列的形状进行推理，我们用四个特征数对每个时间序列进行总结：

1. 死前平均:死亡前360至30天的算术平均。
2. 短期增长:从死后0天到29天，减去死前平均值。
3.长期增长:死亡后30天至360天的算术平均值减去死前平均值。
4. 一半时间:从死后曲线(包括死亡日期)到最小死后值之间的总面积的一半所需累积的天数。

提及时间序列的聚类分析。（A）从每一个提到的时间序列中，我们提取了四个特征数：死前平均数、短期上升、长期上升和减半时间。在生成的四维空间中，使用k-means算法对时间序列进行聚类。根据平均轮廓标准，新闻和推特上的最佳聚类数都是k=4。（B）就簇质心和簇大小而言，新闻和推特上独立出现了几乎相同的簇（C1到C4）。集群质心在右侧（新闻）和底部（推特）边距中被描绘为条形图；在左侧（新闻）和顶部（推特）空白处，每个集群的平均提及时间序列。混淆矩阵的对角线条目比假设两种媒体独立的空模型下的对角线条目大得多，正如混淆矩阵所捕获的那样，给定的人往往会落入两种媒体中相应的集群中。

短期和长期提升的幅度

合并所有公众人物的短期增长使得我们可以量化在死后强烈的猛增，短期内，新闻的平均增长为1.98， Twitter的平均增长为2.45 。Twitter上的增长明显更强劲，与新闻上的9400%的增长相比，它大约相当于28000%的线性增长。

在立即飙升之后，媒体的兴趣往往会迅速消退。在新闻中，没有观察到任何重要的长期增长，而在推特上，我们测量了一个显著更大的转换，在线性尺度上增加了3.8%。

提及时间序列的聚类分析

提到时间序列，可以看到各种各样的曲线形状，图1的示例给出了这些曲线形状的一瞥。文章假设，尽管时间序列具有多样性，但可以将其分为不同的类，这是文章在聚类分析中探索的一个假设。时间序列由其四个特征数（死前平均数、短期上升、长期上升、减半时间）以z-score标准化形式表示，并使用k 均值算法进行聚类。对新闻和推特进行了单独的聚类。计算所有簇数k∈ {2，…，30}通过平均轮廓标准显示，对于新闻和推特而言，k=4类的聚类都有一个明显的最佳值

图3B的边距；右边距显示新闻的质心，下边距显示推特的质心。此外，我们在左侧（新闻）和顶部（推特）边缘绘制了每个集群的平均平滑提及时间序列。引人注目的是，尽管分别对新闻和推特进行了独立的聚类，但每个集群中出现的质心以及数据点的数量几乎相同。由此产生的簇，我们按大小递减的顺序将其命名为C1到C4，可以描述如下:

C1(“blip”):在去世之前和之后的平均提及频率，在这之间有一个短期的平均提升幅度(62%的人在新闻中;59%在Twitter上)。
C2(“slience”):在去世之前和之后的平均提及频率，有一个微弱的低于平均水平的短期提升幅度(28%的新闻;26%在Twitter上)。
C3(“rise”):高的去世前被提及的频率，大量短期上升，然后是极端的长期上升(新闻报道7%;11%在Twitter上)。
C4(“decline”):死前被提及的频率极高，短期上升高于平均水平，长期上升低于平均水平(新闻报道为3%;4%在Twitter上)。

在这两个社交媒体中，超过一半的人落在集群C1，且与整体平均值相似，剩下的大约一半人（26-28%）属于C2类；他们的时间序列与C1的时间序列相似，不同之处在于C2人群的死亡在很大程度上没有引起人们的注意。C1和C2以外的人群中，约有一半（7-11%）属于C3人群，其中大多数人在去世前就已经很受欢迎，并且在短期和长期内都受到了极大的关注。最后一组，C4，由极少数精英（3-4%）组成，他们在死前非常受欢迎，死后往往会逐渐消失。在这个集群中，新闻上的长期下降幅度比推特上的要大得多。

新闻和推特不仅在集群上一致，而且在规模基本一致。一个给定的人也倾向于落入两种媒体中相应的簇中

Biographic Correlates of Postmortem Memory死后记忆的传记相关性

接下来，我们的目标是了解一个人死前的哪些属性与他死后被提及的频率有关。单纯的相关理性分析不足以达到这一目的，因为个人财产是相互关联的;数据集中的领导人(政客， ceo等)更有可能自然死亡，而且和艺术家相比，更有可能是男人。为了理清这些相关性，我们进行了回归分析。我们拟合了两个线性回归模型:

1.短期提振，
2、长期推进，
在这两种情况下都有六个预测因子：
1、死前平均提及频率，
2、死亡年龄（因子分为八个级别：20-29、30-39、。，
90–99），
3、死亡方式（因素有两个层次：自然、非自然），
4、知名度类型（六级系数，指定专业或
此人最为人所知的角色：艺术、体育、领导力[包括政治家、商业/组织领袖、宗教领袖、军人等]、因死亡而知名[包括灾难受害者]、学术界/工程界），
5、语言（因素有三个层次：英语、非英语、电话、未知），以及
6、性别（因子分为两个层次：女性、男性）。

在2362人中，回归分析只包括870人，他们的所有因素都达到了定义水平。所有因子变量都被虚拟编码为二进制指标。对死前平均值进行一阶变换，然后线性缩放并移动到区间[[0.5，0.5]。

此外，选择70–79岁（包含死亡时的平均年龄和中位年龄）作为默认年龄水平，并选择最频繁的年龄水平作为所有其他因素的默认值，这样回归截距就可以捕捉到一个“基线人物”的平均结果，该“基线人物”代表了在70–79岁时自然死亡的以英语为母语的在去世之前有平均知名度的男性艺术家。综上所述，二元预测器的系数β对应于相对于基线人物角色的β的加性提升增加，或者因为提升是以10为底的对数（提及频率的死后与死前比率）乘以死后与死前比率增加 $10^{\beta }$ 。
针对媒体（新闻或推特）和结果（短期或长期提升）的每种组合，分别拟合了一个回归模型，共四个模型。

模型系数(总结在表1)描绘了一个大致一致的画面，新闻与Twitter。我们观察到，在其他条件不变的情况下（ceteris paribus），无论是短期还是长期的提升，对于那些非自然死亡的人，对于那些有英语背景的人，以及那些在死前就已经很受欢迎的人来说都更大。除了长期新闻报道对于女性的略大之外，没有发现明显的性别差异。
唯一重要的值得注意的类型是领导力，在两种媒体中其长期提升比艺术基线更小。

在图4a和图b中直观地显示了短期和长期的增长对死亡年龄的依赖，以确定上述发现是否对在不同年龄等级中非自然死亡的人注意力增加更多，绘制的图片是基于一个略微修改的模型，增加了一个“死亡方式的年龄”互动项。这使得我们可以分别估计自然死亡和非自然死亡的人在死后注意力的平均提升(和之前一样，估计是针对以英语为母语的男性艺术家的死前受欢迎程度的中位数)。检查图4a和图B的曲线，我们做两个观察。首先，在各个年龄段，非自然死亡的人得到了更大的提升，无论是短期的还是长期的，以及无论是在新闻还是在推特上。其次，新闻的曲线呈非单调的u型(图4A)，而Twitter的曲线单调，呈递减趋势(图4B);也就是说，新闻增加的关注最多的是那些很年轻或很老的人，而Twitter增加的关注更多的是年轻的死者。

上述分析分别针对新闻和推特进行。为了了解同一个人的死后记忆在两种媒体之间的差异，我们进行了成对分析。我们再次用与上述相同的预测因子拟合线性回归模型，但这次的结果是由新闻减去推特在短期和长期提升中的差异确定的。因此，秩转换和标度死后平均值预测值被替换为秩转换和标度死后平均值的新闻减去推特的差值。在这种情况下，较大的正系数表示与推特相比，在新闻中获得特别强关注的人群，而较大的负系数表示与新闻相比，在推特上获得特别强关注的人群。

与推特相比，新闻网站的短期关注度尤其高。相反，与新闻相比，死前受欢迎的人和非英语背景的人在推特上获得了特别大的短期关注提升，后者可能是因为英语是全球联系最紧密的语言，因此推特上的帖子，尽管都是用英语写的，但来源于比新闻文章更具地理和文化多样性的作家群体

另外，与领导者相比，没有进一步的显著性类型与两种结果显著相关，也没有观察到显著的性别差异。最后，年龄依赖性如图4C所示。图4C显示，一个人年龄越大，新闻减去推特的升幅差异越大，证实了新闻媒体比推特更青睐老年人，无论是短期还是长期。

discussion:

我们对一段时间内提及频率的分析表明，对于大多数公众人物来说，媒体关注的强烈脉冲紧随死亡之后，新闻中提及频率增加了9400%，推特上提及频率增加了28000%。然后，平均提及频率急剧下降，在死亡后1个月左右出现拐点，此后衰减更慢，最终向死前水平收敛。这两个阶段与一个假设集体记忆有两个组成部分的模型相一致：一个是在生活中建立起来的恒定的cultural memory基线水平，另一个是由死亡引发的communicative memory的附加层，根据幂律，它通常在几天内衰减。对提及时间序列的聚类分析揭示了一组四种典型的记忆模式（“短暂”、“沉默”、“上升”和“下降”）。同样的模式在新闻和推特上独立出现，同一个人倾向于在两种媒体上属于同一个集群。

我们假设艺术家在集体记忆中的存在率更高，因为他们不仅在一生中都是积极的表演者，而且经常留下可以长期保存下来的艺术遗产，而领导者、运动员等则主要因其一生中所采取的行动而值得注意，一旦无法采取行动，媒体对他们的兴趣就会大大降低，这对领导人来说似乎是最明显的影响。

这项研究的主要贡献之一是对主流新闻和推特（Twitter）之间的比较，推特是一个著名的社交媒体平台，在一组固定的关注主题上，从而扩展了关于这两种媒体之间相互作用的丰富文章。

尽管聚类分析中出现的原型提及时间序列具有惊人的相似性，但回归分析揭示了新闻与推特中死后记忆之间的一些值得注意的差异。首先，虽然在推特上，死亡后的增长与死亡年龄呈单调负相关，但我们在新闻中观察到一种非单调的U型关系，这表明死亡后对年轻人和老年人的影响最大，这种影响甚至持续到一个固定的人。第二，与非自然死亡相关的短期增长在新闻中比在推特上更为明显。第三，无论是短期还是长期，领导者都比推特更受新闻的推动（表2）。综上所述，这些发现可以解释为主流新闻媒体同时扮演两个角色的结果：一方面，
由年轻或非自然死亡引起的事情是作为迎合公众好奇心的先驱，；另一方面，作为集体记忆的管理者，即当一位老人或一位有成就的领导者在一生成就之后去世时。相反，推特扮演这两个角色的程度较弱：一方面，在非自然死亡之后，推特上的短期增长不如新闻上明显；另一方面，当一位老公众人物或领导人去世时，推特用户关注度较低。

目前的研究表明，即使是简单的提及次数，也会对死后谁会被记住产生细微的影响。未来的研究可能会更进一步，通过研究对已故公众人物在死亡后的语言、语气和态度如何变化，来研究他们是如何被记住的。通过考虑像我们这样成千上万的公众人物，未来的工作将能够量化，例如，新闻和社交媒体在多大程度上遵守古老的拉丁谚语“De mortuis nihil nisi bonum”
（“对于死者，不要说坏话”）。通过超越此处所考虑的粗略传记类别，并利用手动管理的公众人物更细粒度信息库，可以进一步丰富分析内容。我们还强调，媒体注意力无法捕获集体记忆的所有方面，因此我们鼓励研究人员将我们的方法应用于进一步的受欢迎程度测量，尤其是那些捕获内容（包括歌曲、电影、书籍、维基百科文章等）的消费而非生产的方法。

且文章的数据来源中大多是精英，毕竟大多情况下精英才可能在维基百科上有界面，且女性被列入Freebase知识库或维基百科的门槛要更高，所以要考虑普通人的情况，以及数据集中男女比例情况。