stance detection,可理解为“立场检测”,stance即为人对个体、事物、事件所表现出的看法或者态度,如“支持、反对”。stance detection虽然也属于文本分类,但和基于主题的文本分类、情感分类有些差异,stance的表达是更隐晦的,因此分类难度更大。
刚看到一篇关于立场检测的文章,一搜2019ACM上已经出了综述,故看看顺便记录一下。
摘要:从自然语言文本中自动提取语义信息是一个重要的研究问题。随着在社交媒体网站、新闻门户网站和论坛等渠道人们可以自由方便地发表自己的言论,解决诸如情感分析、讽刺、争议、反言、谣言、假新闻检测和论点挖掘等问题越来越有意义(sentiment analysis,sarcasm/controversy/veracity/rumour/fake news detection and argument mining)
stance detection立场检测的定义有很多种,最常见的是:将观点自动分类为{favor,against,neither}(支持,反对,中立)中的一类。本篇综述包括立场检测这个问题的定义、迄今为止的方法分类、相关数据集和工具的描述以及相关未解决的问题。
总结一下:立场检测这个任务的本质还是文本分类,它不同于情感分析任务识别出文本表达的情绪识{积极地,消极的,中立的},也不同于基于方面的情感分析对一部餐馆的氛围、价格、食品等方面的评价,更不同于常规文本分类将新闻文本分类为{财经,娱乐…}等几个类。立场检测是针对一个目标发表的言论,这个言论对目标是{赞成,反对,两者都不是}。举个例子,微博立场检测的训练数据如下所示,包括target,text,stance,其中target一共有“开放二胎”,‘俄罗斯在叙利亚的反恐行动’,‘春节放鞭炮’,‘iPhone SE’,'深圳禁摩限电’五类,stance有“favor”,‘against’,‘neither’三类。所以这个可以看做是对五个任务分别做三分类,当然另一种思路就是将五个任务同时分类。
1 introduction
stance detection 也有论文中称作stance classification,stance identification,stance prediction,debate-side classification,debate stance classification.是情感分析的一个子问题,旨在确定文本作者对**目标(实体、概念、事件、想法、意见、主张、主题等)**的立场,立场有支持,反对,赞同。
立场检测有三个主流的方向:generic stance detection通用立场检测 [Mohammad et al. 2016b], rumour stance classification谣言立场分类 [Zubiaga et al.2018a], and fake news stance detection假新闻立场检测 [FNC 2017].从目标的数量以及实验设置的训练和测试数据集中存在的立场目标又可以分为:multi-target sta