[yzhpdh多读paper]Assessing the Intent of Fake News Spreaders

title:“This is Fake! Shared it by Mistake”:Assessing the Intent of Fake News Spreaders

这个文章标题在csdn里发不出去

在翻阅acm的会议文章的时候偶然看到的一篇比较新的发表文章,本来抱着随意阅读的心态看看,但是看完related work后觉得收获到了一些新知识,所以写博客记录一下。

这篇文章的目的主要是识别传播假新闻者的意图、提出识别 有意识地/无意识地传播假新闻的方法(influence graph),利用心理学理论解释为什么会有无意思传播假新闻的人

这里介绍一下related work里涉及到的心理学理论:

个人更喜欢确认他们先前存在的态度的信息(selective exposure),认为与他们之前信念一致的信息比与他们信念不一致的信息更具有说服力(confirmation bias)并且倾向于接受使他们高兴的信息(desirability bias)

人们倾向于使用带有情感偏见的推理来做出最理想的决定,而不是那些准确反映证据的决定(motivated reasoning)

methodology:

LIWC (Linguistic Inquiry and Word Count):通常用于综合特征提取

SVM:常用的分类器,用于预测fake news

如果传播者在传播fake news之前就能获取到这个新闻对应的accuracy,那么传播fake news的机率会低很多,或者在推荐算法的排序阶段可以把文章质量作为排序的

modeling:

文章中把related work中提到的这些理论作为internal influence,而herd behavior(羊群效应)作为external influence.

然后针对这两种影响去social media中挖掘对应的信息。文章认为如果一个帖子(下面两种)与假新闻更相似或更受其影响,那么该用户就会更无意识地传播假新闻

(1)用户过去发布的帖子(内部影响),
(2)其他用户发布的帖子(外部影响)

获取帖子之间影响力的一种自然方法是构建post的influence graph。在此图中,两个帖子之间的(有向)边表示从一个post到另一个post的(外部或内部)影响流。边缘权值表示影响流的数量。有了这个图,一个帖子从其他帖子接收到的总体影响可以通过查看其对应传入边和它们的权重来评估。包含假新闻的帖子受到的影响越大,发布该帖子的用户在传播假新闻时就越无意识。

这是influence graph中对应的边属性

文章中还详细描述了图中的一些属性
边的存在性:pi是否可能影响pj,时间上先发的post大概率对后发的post有影响

边属性:pi和pj之间流动着何种类型的影响(内部vs外部)?

如果post不是由一个用户发的可以定义为external influence的边,如果是由一个用户发的,但不是同一个新闻内容则可定义为internal influence的边

边权:从pi到pj有多大的影响?

两个post都分享相同的文章肯定比分享不同文章的边权要高;

两个post是具有共识的比不具备共识的边权要高

两个post时间间隔短的比间隔长的边权更高

data

这个实验中使用了MM-COVID与ReCOVery两个数据集,但这两个数据集中只给了真假新闻的标注,但是没有给传播者是否是故意传播的标注,所以刚开始文章采用人工标准的方法(一个是相关领域的专家,另一个是相关领域的研究生),由他们来进行标注(共300条,且文章给他们了一些要求

(1)如果用户无意中传播了假新闻,请标注
(回答是或不是);
(2)给出置信水平(详见下文);
(3)用证据解释注释;
(4)估计注释所花费的时间。

我们提供了三个可选的信心级别。
0表示表示法的结果是随机猜测;没有发现有帮助的证据
注释,或者一半证据支持,另一半则是对象注释结果。
0.5表示置信度中等;在注释者找到的所有证据中,有一些重新得到了支持,但大多数支持注释结果。
1表示高置信度;注释者找到的所有证据都支持注释结果。 

最后人工标注出119条post,且59条是无意的,60条是有意的,但这也存在人工标注时间太长的问题,所以文章提出要找到用算法自动标注的方法,在人工标注过程中他们发现,确定intentional比unintentional要更有信息,所以接下来他们的方向更多是如何确定intentional

我们进一步注意到,积极进行事实检查的用户也可以以纠正的方式传播虚假新闻;他们澄清新闻是虚假的(客观的,而不是咄咄逼人的),并在传播过程中告知其他用户。我们将传播虚假新闻的相应帖子称为更正帖子,这些用户在本文后面会进行更正。这些校正器可以识别新闻错误。因此,我们将他们与无意中的虚假新闻传播者区分开来。

然后接下来是比较自动标注算法与人工标注的区别...

 UTILIZING INTENT OF NEWS SPREADERS TO COMBAT FAKE NEWS

文章首先在传统的机器学习框架内评估新闻传播中帖子的受影响程度。然后,文章在深度学习框架内利用所提出的影响图。

Combating Fake News by Affected Degree.

对于每一篇新闻文章,文章手动提取100多个(传播和内容)特征作为其表示.(这样好耗时呀...研究者太不容易了)

传播特征包括传播新闻的帖子的平均(内部、外部和综合)受影响程度以及一组广泛接受的传播特征。

内容特征使用LIWC提取

采用的方法是 dEFEND,这是一个通过 宣传与内容来侦查假新闻的方法

值得注意的是,帖子的内部影响程度对假新闻的检测有很大的贡献,XGBoost评估的特征重要性一直排在前五名。

Combating Fake News by Influence Graph.

文章构建了构造新闻-帖子异构图

新闻与帖子连在一起说明帖子里分享了新闻,而帖子内部的连接关系就是上面提到到influence graph,然后他们训练了Het GNN (Heterogeneous Graph Neural Network),进一步利用XBGoost来预测假新闻。

将标记新闻的百分比从20%变为80%,该方法在两个数据集上的AUC得分范围为0.83(小规模训练数据)到0.91(相对大规模训练数据)。为了进一步评估所提出的影响图G,我们将构建的异构图的两个变量组作为基线。一个用随机版本(GRandom)代替G:基于我们的图稀疏化策略(见附录a),我们通过为每个帖子随机选择100篇帖子来构建随机图,确保在该图中没有形成自循环。另一种是用其子图

(i)代替G,仅具有内部影响(GInternal);

(ii)仅受外部影响(外部);

(iii)具有内部和外部影响,但后者只存在于共享同一新闻的两个帖子之间(GSame新闻)
表2中的GSubgraph指的是GSame新闻,它在所有子图中表现最好。我们观察到,总体而言,所提出的影响图在检测假新闻方面优于其变体,尤其是在训练数据有限的情况下。

 

conclusion

我们研究社交媒体用户无意传播新闻传播的现象。在社会科学基础上,我们提出了influence graph,用它来评估虚假新闻传播者的无意程度(表示为受影响程度)。提出了稀疏影响图和通过确定影响图的上界来规范化影响度的策略。我们开发了手动和自动注释机制,以获取MM-COVID和恢复数据的虚假新闻传播者的基本真相意图(有意或无意)。我们观察到,故意虚假新闻传播者的受影响程度明显低于无意虚假新闻传播者,这验证了我们的评估。这项工作有助于从两个角度打击假新闻。首先,我们评估的意图有助于确定是否有必要使用事实来推送或推荐给虚假新闻传播者。其次,我们提出,经过评估的传播者意图和建议的影响图有效地帮助检测虚假新闻,AUC分数约为0.9 

心得

好像没详细描述那个自动化标注算法所以我有点懵逼,其他思路都挺清晰的,也具备现实意义

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值