【学术】计算传播学：自然语言处理技术的应用情况和前景

最新推荐文章于 2024-07-26 01:45:52 发布

兔子爱读书

最新推荐文章于 2024-07-26 01:45:52 发布

阅读量1.5k

点赞数

分类专栏：数据挖掘

原文链接：http://d.wanfangdata.com.cn/periodical/jsjkx202006030

版权

数据挖掘专栏收录该内容

23 篇文章 4 订阅

订阅专栏

本文探讨了社会传播学面临的挑战，如数据整合与分析，并介绍了NLP在假新闻检测、常识推理、自动化新闻等领域的应用。同时，展望了NLP在群体决策支持、亲密关系判断和公众议程生成分析等方面的可能性，强调了NLP技术与传播学理论融合的重要性。

摘要由CSDN通过智能技术生成

一、社会传播学研究

二、目前社会传播学存在的挑战

（1）如何高效地收集、整合数据，并进行信息的提取与利用。

（2）如何对清洗后的数据进行深层次分析，以发现同类事件的共性规律和差异化特征，深入解剖参与者的群体和个体特征。

（2）CMC沟通理论与基于NLP的亲密关系判断问题

（3）社会判断理论与新型NLP态度分析问题

（4）基于NLP的公众议程生成分析

一、社会传播学研究

社会传播学的研究方法可为实证和阐释两大类别：

实证性方法假设事实真相是确定且唯一的，可通过量化分析或测试推导出因果关系。

阐释性方法则立足于多重事实与真相的假设，侧重于研究语言、文本等交互信息自身的意义和价值。

想象阐释性和实证性方法分别处于地球的两极，七大流派就填充于两极之间的空白地带，分别为：社会心理学派、控制论学派、修辞学派、符号学派、社会文化学派、批判学派、现象学派。排序越靠前的流派，越多地采用实证性研究方法，反之则表示阐释性研究方法在该理论中占上风。

倾向实证性的学派与NLP的联系更加紧密，属于更深层的信息加工问题（也是社会学的转型方向）。

二、目前社会传播学存在的挑战

（1）如何高效地收集、整合数据，并进行信息的提取与利用。

当前的网络数据渠道主要为门户网站的新闻、搜索引擎的检索结果、问答社区的讨论、微博互动等。平台的多样性使得成员构成、交流形式、讨论深度等各不相同，数据形式涵盖文字、图片、表情、视频等多种格式。面对海量数据，人工方式很难进行处理，需要借助自动化工具来实现新闻主题提取、内容理解、体裁归类等工作。自然语言处理技术能够实现异构数据的迅速整合、关键信息的提取及热点追踪等，辅助研究人员进行高效的文本分析和内容理解。因此，熟悉各种自然语言处理工具正逐渐成为传播学研究者的必备技能。

（2）如何对清洗后的数据进行深层次分析，以发现同类事件的共性规律和差异化特征，深入解剖参与者的群体和个体特征。

社会传播学研究的根本目的是透过表面的内容看到事件的深层次动机、目的、发展规律，更好地解释社会生活中的自我、他人及世界的关系。其所涉及的学科门派众多，不同理论框架对问题的解释不同，得出的结论也不尽相同。例如，符号互动论强调“行动取决于意义，社会互动产生意义，人的思维修正对社会互动过程的解释”，因此从数据中找出群体思维演变规律是分析群体行动的间接但极其重要的步骤；关系辩证法强调找出关系内部冲突以及关系外部群体冲突来解释事件演变规律，因此侧重对参与者自身属性以及参与者关系的研究等。
基于以上原因，虽然自然语言处理技术的发展以及语料库的丰富程度已经能够解决本问题的一些子问题，如内容分类、观点凝练、情感分析等，但其还无法满足更为系统和深入的智能化传播分析的要求。这就对自然语言处理技术与传播学理论的深度融合提出了要求。

三、NLP在社会传播学中的现有应用

（1）假新闻检测

目前的问题：

中文假新闻检测的研究内容还局限于“谣言”，而对“半真半假”“标题和内容不一致”“事实错位”“讽刺性文章”等复杂情况的检测研究相对较少；

中文研究数据主要来自于微博，且受隐私保护影响，多数不予公开，其他来源（如公众号文章、时政评论、辟谣平台文章）的中文数据也相对较少；

中文假新闻检测的平台建设尚处于起步阶段。虽然果壳网的谣言粉碎机、微信的自动辟谣等功能值得称赞，但前者的假新闻相对陈旧，无法及时发现并辟谣实时出现的假新闻；后者局限于微信平台内部文章的辟谣，无法识别和处理整个网络中出现的假新闻。因此，为实现和谐的网络传播生态，建立面向多源头、多渠道的假新闻实时辟谣平台仍任重道远。

假新闻检测，公开数据资源如下：

Dataset	Link	Description	Text label
LIAR	https://www.cs.ucsb.edu/˜william/data/liar_dataset.zip	经典数据集，从PolitiFact提取的1.28万条带标签的短新闻，各标签下的样本数量相对平衡	True, Mostly-true, Half-true, Barely-true,False, Pants-fire
Twitter dataset	http://alt.qcri.org/˜wgao/data/rumdect.zip	经典数据集，用于假新闻检测，涵盖992个事件、59.24万条推特及23.37万用户	Fake, True
Weibo dataset	http://alt.qcri.org/˜wgao/data/rumdect.zip	经典数据集，用于假新闻检测，包含4664个事件、380万条微博及280万用户	Fake, True
PHEME	https://figshare.com/articles/ PHEME_dataset_of_rumours_and_non-rumours/4010619	经典数据集，用于谣言检测，包含5802条线程、10.3万条推特，其中1972条谣言	Rumour，Non-rumour
BuzzFeed	https://github.com/BuzzFeedNews/	假新闻数据集, 子地址如下： (1) 2016-10-facebook-fact-check (2) 2017-01-media-platform-and-news-trust- survey (3) 2016-12-fake-news-survey (4) 2017-04-fake-news-ad-trackers	(1) Mostly true, Mixture of true and false, No factual content (2) Trust, NotTrust (3) Fake, True (4) Fake
PolitiFact	https://www.politifact.com/	政治新闻核查网站，由坦帕湾时报创建，每条政治新闻都带有标签	True, Mostly True, Half-true, Mostly False, False, Pants-on-fire False
Snopes	https://www.snopes.com/	传闻核查网站，美国一家专门调查新闻真实性、致力于揭穿谣言的网站	Fake, True, Uncertain
Full Fact	https://fullfact.org/	事实核查工具，由谷歌资助，用于自动解析和判定社交媒体新闻的真实性	-
HeroX Fact Check	https://herox.com/factcheck/	假新闻检测竞赛，为“事实”的准确性打分	TRUE, Somewhat TRUE, Somewhat FALSE, FALSE
FakeNews Challenge	http://www.fakenewschallenge.org/	假新闻检测竞赛，参赛人员通过建立检测系统来评价标题和内容的一致性打分，也被称为“立场检测 (Stance Detection)”	Agrees，Disagrees，Discusses，Unrelated

（2）常识推理

除了由领域专家、WordNet、众包方式创建的知识库外，通过NLP自动提取信息（如事实和关系）及建立知识图谱正成为常识推理研究的热门课题。

（3）自动化新闻

自然语言生成技术尽管在过去几年发展迅速，但仍然不足以实现通用的、智能化的新闻生成系统。一方面，相对成熟的新闻自动生成系统大多是服务于商业的或为私人公司所有，具体架构和操作并不对外开放，各系统之间存在技术屏障。另一方面，目前公开的自动新闻生成系统高度依赖于规则和模板，并不智能化。虽然Quill等曾设计出一种用户自定义的、几乎不依赖模板的自动新闻生成系统，但是该系统无法生成通用解，或者所得解难以重复利用。此外，Linden等[56]在2017年的研究中指出，多数自然语言生成系统只有在结构化数据充足、领域知识被充分理解的情况下才有效，这对知识数据库的建立提出了较大的挑战。针对这些问题，Leppanen等于2017年提出一种数据驱动的自动新闻生成系统，该系统很大程度上独立于领域知识和语言存在，也较少依赖于现有数据库，其实际效果在2017年芬兰市政选举的相关新闻中得到验证；同时他们也指出了一些可提升的方面，如多语言和跨领域的系统验证、多种新闻结构和类型的生成、基于机器学习的自动模板读取等。

（4）攻击性话语界定

自然语言处理领域的国际权威竞赛——语义评测比赛（International Workshop on Semantic Evaluation, SemEval）在2019年的最新赛程中提出了“攻击性语言归类任务（SemEval-2019 Task 6）” [79] 5)，其包括3个子任务：A类的攻击性语言识别、B类的攻击类型识别、C类的攻击目标识别。在公平的对比环境下，参赛者提出了一些卓有成效的解决类排名1/103，B类排名4/75）[80]，基于神经网方案，如基于迁移学习和适应性学习的方法（A络的迁移学习方法[81]（A类排名14/103），基于线性支持向量机的分类方法（B类）[82]，基于LSTM的攻击语言识别和攻击类型识别[83]（所有子任务），考虑多个分类器的集成模型[84-85] （所有子任务）等。综上可见，基于迁移学习的方法在实践中的表现最为出色，集成学习模型和神经网络模型最受欢迎。但是由于比赛形式的限制，多数参赛者止步于方法集成和应用研究，缺少更深入的理论分析来得出严谨的结论。

攻击性话语界定数据集：

1 https://webis.de/data.html
2 http://github.com/zeerakw/hatespeech
3 https://github.com/gpitsilis/hate-speech
4 http://takelab.fer.hr/alfeda
5 http://alt.qcri.org/semeval2019/index.php?id=tasks

（5）情感分析

基于NLP的情感计算已经成为大数据时代新闻传播学领域的重要研究工具，被广泛应用于政治、经济、社会问题的分析。它使得新闻事件中的发布者、传播者、评论者的情感能够得到精细化度量[98]，辅助推动新闻传播学从经验性分析过渡到实证性分析。未来，探索更为复杂的情感类别，并提升复杂类别下的情感划分准确度，是具有极大社会学意义的研究课题。

四、NLP与传播学未来可能结合的点

（1）群体决策支持系统中的NLP应用

群体决策(Group Decision)是社会心理学派和控制论学派的交叉研究课题，主要回答如何组织不同背景、兴趣、水平的人开展讨论，最终输出有效决策。群体决策理论为互联网时代群体决策支持系统的建立提供了理论框架。同时，以计算机为媒介的协同决策制定(Computer-mediated Collaborative Decision Making, CDM)[100]也将促进传播学中群体决策理论的发展和应用。

（2）CMC沟通理论与基于NLP的亲密关系判断问题

图1 亲密关系判断问题的特征框架图

如图1所示，借鉴Cambria等[101]的“情感分析行李箱”结构，可建立对应的“亲密关系判断问题”的特征框架。图中，第一层是基于沟通文本分析，通过建立亲密关系的极性词典、词义消歧、语义理解，构建语法语义特征来评估二人的亲密值。第二层在多个文本的亲密值评估基础上，结合沟通时间、频率等互动因素，以及共同好友等网络因素，推断出二人的从属关系。第三层则抛开二人的关系，只针对个体本身进行情感人格、行为特征分析，建立个体的亲密度倾向。在得到三层特征的基础上，可采用机器学习方法、神经网络方法或者其他建模推理方法来为二人的亲密关系贴上标签。

（3）社会判断理论与新型NLP态度分析问题

社会判断理论为NLP情感/态度分析问题提供了新思路：一方面，社会判断态度的生成与信息传播的先后顺序产生联系，是一种类似马尔可夫链的生成机制，将此理论融入问题的建模，将丰富问题框架，并生成更多可解释、有现实意义的结论；另一方面，通过NLP对用户历史态度数据进行分析，可判断用户接受区域与拒绝区域的分布情况，从而辅助刻画用户的人格特征，完善用户画像。在此基础上，如果针对性地推送新闻、消息、观点评论等，可促成用户态度或立场的转变。

（4）基于NLP的公众议程生成分析

如果收集到足够的网络传播数据，基于NLP话题发现技术就可以帮助发现议题的生成、传播节奏、关键节点等，检测到相对完整的议程生成过程，丰富议程设置猜想的内容。此外，自发的公众议程生成过程中的传播结构变革也值得NLP研究者关注。传统大众传媒议题与社交网络碰撞后，出现了传播权力结构的转型，一部分媒体主导的权力话语正在被“大V”所替代，即个体取代了组织的话语权力地位，传播过程的变量迅速增加，无法再以传统的方法去分析。同时，话语权力结构呈现去中心式的、分散的趋势，导致议题传播的网络结构无法被充分地测量。面对上述问题，基于文本内容的NLP分析方法可以帮助发现潜在的传播结构和主导节点，厘清社会议题和舆论的生产机制，加速新的话语权力结构理论的生成。

参考文献：《自然语言处理技术在社会传播学中的应用研究和前景展望》