论文阅读笔记:A Machine Learning Pipeline to Examine PoliticalBias with Congressional Speeches

对A Machine Learning Pipeline to Examine Political Bias with Congressional Speeches论文中的内容进行总结提炼

使用国会的演讲来进行zz偏见的分类学习(zz表示zhengzhi,下同)

优势:无需人工标注的数据   ,使用美国国会zz演讲文章来标记数据

成果:在Twitter和Gab上进行zz偏见预测,准确率分别达到70.5%和65.1%,提出了机器学习的方法,级联了多种不同特征( social media text, users, sentiment,),来进行政治倾向预测,准确率达到85%

具体成果:1.从国会演讲中进行实体表示,给社交媒体的zz偏向进行打分。

                   2.基于机器学习的方法对社交媒体的帖子的zz偏向进行预测,并发现Twitter上得到的模型可以迁移到Gab论坛上。

                   3.其他的工程相关功能,语言、层叠和用户功能等工程功能,以及上下文文本嵌入,用于机器学习模型预测对话的zz偏见

数据集:(第三部分性详细介绍)Gab和Twitter数据集公开可用,zz家演讲发言数据集(使用来自民主党-左倾和共和党-右倾的发言,,发言内容和社交媒体讨论内容一致)

方法:两项工作,1.利用机器学习的方法对社交媒体(Twitter和Gab)的帖子的zz得分进行标准,判断为左or右。  2.利用该方法建模为预测任务。

A.抽取社交媒体和国会演讲中的实体,提取的实体在媒体中至少出现100次,得到词云(描述媒体中讨论的话题),对于事件e,通过公式

判断其偏向的是  民主党(d)还是共和党(r)   我们利用词频倒置文档频率(TF-IDF)来获得实体在共和党和民主党视角下的重要性。

B.zz偏好预测的特征工程。标注数据集中的特征, 词向量编码方式FastText(Word2vec的扩展,其中FastText通过聚合字符n元语法的表示来提取上下文文本表示。FastText证明,即使是没有出现在训练语料库中的单词,也可以构建更好的单词表示,并且与其前身word2vec相比,性能有所提高)

 

特征工程具体为了的是判断一个帖子的可能偏好,即被民主党还是共和党所喜爱

C.使用信息级联的方式预测zz偏好的转移

级联起始于一个单个用户帖子,然后有用户围绕此开始讨论(回复转发)

具体看如下一段话:

意思是一个级联图,包括{帖子,帖子之间的边,帖子的情感偏好,帖子之间边的权重},给定前面的级联图,预测下一时刻级联图的zz偏好,此实验在Gab上。

实验结果:1.标签的有效性  2.zz偏见的预测分析  3.zz偏好的转移的预测

2.使用国会发言做训练集,社交媒体做测试集

3.级联>5.

实验都是机器学习的常用方法。(随机森林、Ada Boost、MLP和二次判别分析(QDA))

结论:

提供了两个研究在线社交媒体论坛中zz偏见的方法。我们提出了一种方法,通过国会演讲来获取社交媒体帖子的zz偏见,这些演讲包含了政客们对帖子中存在的实体的看法。通过来自Gab和Twitter的可公开获取的大规模社交媒体帖子,我们为ML模型提供了一个预测政治偏见得分的功能列表。我们还从Gab对话中的信息级联中设计了多个类别的功能,用于偏差预测任务。我们的多维定量评估表明,我们提取的特征集可以深刻地帮助预测和预测任务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值