对A Machine Learning Pipeline to Examine Political Bias with Congressional Speeches论文中的内容进行总结提炼
使用国会的演讲来进行zz偏见的分类学习(zz表示zhengzhi,下同)
优势:无需人工标注的数据 ,使用美国国会zz演讲文章来标记数据
成果:在Twitter和Gab上进行zz偏见预测,准确率分别达到70.5%和65.1%,提出了机器学习的方法,级联了多种不同特征( social media text, users, sentiment,),来进行政治倾向预测,准确率达到85%
具体成果:1.从国会演讲中进行实体表示,给社交媒体的zz偏向进行打分。
2.基于机器学习的方法对社交媒体的帖子的zz偏向进行预测,并发现Twitter上得到的模型可以迁移到Gab论坛上。
3.其他的工程相关功能,语言、层叠和用户功能等工程功能,以及上下文文本嵌入,用于机器学习模型预测对话的zz偏见
数据集:(第三部分性详细介绍)Gab和Twitter数据集公开可用,zz家演讲发言数据集(使用来自民主党-左倾和共和党-右倾的发言,,发言内容和社交媒体讨论内容一致)
方法:两项工作,1.利用机器学习的方法对社交媒体(Twitter和Gab)的帖子的zz得分进行标准,判断为左or右。 2.利用该方法建模为预测任务。
A.抽取社交媒体和国会演讲中的实体,提取的实体在媒体中至少出现100次,得到词云(描述媒体中讨论的话题),对于事件e,通过公式
判断其偏向的是 民主党(d)还是共和党(r) 我们利用词频倒置文档频率(TF-IDF)来获得实体在共和党和民主党视角下的重要性。
B.zz偏好预测的特征工程。标注数据集中的特征, 词向量编码方式FastText(Word2vec的扩展,其中FastText通过聚合字符n元语法的表示来提取上下文文本表示。FastText证明,即使是没有出现在训练语料库中的单词,也可以构建更好的单词表示,并且与其前身word2vec相比,性能有所提高)
特征工程具体为了的是判断一个帖子的可能偏好,即被民主党还是共和党所喜爱
C.使用信息级联的方式预测zz偏好的转移
级联起始于一个单个用户帖子,然后有用户围绕此开始讨论(回复转发)
具体看如下一段话:
意思是一个级联图,包括{帖子,帖子之间的边,帖子的情感偏好,帖子之间边的权重},给定前面的级联图,预测下一时刻级联图的zz偏好,此实验在Gab上。
实验结果:1.标签的有效性 2.zz偏见的预测分析 3.zz偏好的转移的预测
2.使用国会发言做训练集,社交媒体做测试集
3.级联>5.
实验都是机器学习的常用方法。(随机森林、Ada Boost、MLP和二次判别分析(QDA))
结论:
提供了两个研究在线社交媒体论坛中zz偏见的方法。我们提出了一种方法,通过国会演讲来获取社交媒体帖子的zz偏见,这些演讲包含了政客们对帖子中存在的实体的看法。通过来自Gab和Twitter的可公开获取的大规模社交媒体帖子,我们为ML模型提供了一个预测政治偏见得分的功能列表。我们还从Gab对话中的信息级联中设计了多个类别的功能,用于偏差预测任务。我们的多维定量评估表明,我们提取的特征集可以深刻地帮助预测和预测任务