论文阅读笔记：A Machine Learning Pipeline to Examine PoliticalBias with Congressional Speeches

ren.yz

于 2021-10-05 16:35:20 发布

阅读量92

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44630230/article/details/120612156

版权

对A Machine Learning Pipeline to Examine Political Bias with Congressional Speeches论文中的内容进行总结提炼

使用国会的演讲来进行zz偏见的分类学习（zz表示zhengzhi，下同）

优势：无需人工标注的数据，使用美国国会zz演讲文章来标记数据

成果：在Twitter和Gab上进行zz偏见预测，准确率分别达到70.5%和65.1%，提出了机器学习的方法，级联了多种不同特征（ social media text, users, sentiment,），来进行政治倾向预测，准确率达到85%

具体成果：1.从国会演讲中进行实体表示，给社交媒体的zz偏向进行打分。

2.基于机器学习的方法对社交媒体的帖子的zz偏向进行预测，并发现Twitter上得到的模型可以迁移到Gab论坛上。

3.其他的工程相关功能，语言、层叠和用户功能等工程功能，以及上下文文本嵌入，用于机器学习模型预测对话的zz偏见

数据集：（第三部分性详细介绍）Gab和Twitter数据集公开可用，zz家演讲发言数据集（使用来自民主党-左倾和共和党-右倾的发言，，发言内容和社交媒体讨论内容一致）

方法：两项工作，1.利用机器学习的方法对社交媒体（Twitter和Gab）的帖子的zz得分进行标准，判断为左or右。 2.利用该方法建模为预测任务。

A.抽取社交媒体和国会演讲中的实体，提取的实体在媒体中至少出现100次，得到词云（描述媒体中讨论的话题），对于事件e，通过公式

判断其偏向的是民主党（d）还是共和党（r）我们利用词频倒置文档频率(TF-IDF)来获得实体在共和党和民主党视角下的重要性。

B.zz偏好预测的特征工程。标注数据集中的特征，词向量编码方式FastText(Word2vec的扩展，其中FastText通过聚合字符n元语法的表示来提取上下文文本表示。FastText证明，即使是没有出现在训练语料库中的单词，也可以构建更好的单词表示，并且与其前身word2vec相比，性能有所提高)

特征工程具体为了的是判断一个帖子的可能偏好，即被民主党还是共和党所喜爱

C.使用信息级联的方式预测zz偏好的转移

级联起始于一个单个用户帖子，然后有用户围绕此开始讨论（回复转发）

具体看如下一段话：

意思是一个级联图，包括{帖子，帖子之间的边，帖子的情感偏好，帖子之间边的权重}，给定前面的级联图，预测下一时刻级联图的zz偏好，此实验在Gab上。

实验结果：1.标签的有效性 2.zz偏见的预测分析 3.zz偏好的转移的预测

2.使用国会发言做训练集，社交媒体做测试集

3.级联>5.

实验都是机器学习的常用方法。（随机森林、Ada Boost、MLP和二次判别分析(QDA)）

结论：

提供了两个研究在线社交媒体论坛中zz偏见的方法。我们提出了一种方法，通过国会演讲来获取社交媒体帖子的zz偏见，这些演讲包含了政客们对帖子中存在的实体的看法。通过来自Gab和Twitter的可公开获取的大规模社交媒体帖子，我们为ML模型提供了一个预测政治偏见得分的功能列表。我们还从Gab对话中的信息级联中设计了多个类别的功能，用于偏差预测任务。我们的多维定量评估表明，我们提取的特征集可以深刻地帮助预测和预测任务

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。