“Let’s Eat Grandma”:标点符号(句法树)增强语义表达,用于情感分析

本文探讨了标点符号在情感分析中的重要性,提出了一种结合句法树的新模型,以增强句子嵌入,从而更准确地识别情感。实验表明,该模型在多个数据集上优于BERT等先进基线。
摘要由CSDN通过智能技术生成

标题“Let’s Eat Grandma”: When Punctuation Matters in Sentence Representation for Sentiment Analysis

作者:Mansooreh Karami*, Ahmadreza Mosallanezhad, Michelle V Mancenido, Huan Liu

机构:Arizona State University, Tempe AZ, USA

这个标题很点意思,我刚看到一脸懵“let's eat grandma”,让我们去吃奶奶???查了才发现这应该是国外的一个玩笑:

No, it's the girl, Red Riding Hood, talking to her grandmother. And with a well-placed comma it becomes: Let's eat, Grandma.
不,是小红帽在和祖母说话。其间应当放一个逗号,就变成了:我们吃饭吧,祖母。

以此来说明标点符号在文字表达中的重要性。这篇文章讲的就是在情感分析任务中将标点符号利用起来

摘要:基于神经网络的embedding已经成为创建文本的向量表示的主流方法,以捕捉词汇和语义的异同。在普遍的方法中,编码时将标点符号视为不重要的信息,因此在预处理阶段就被过滤掉了。在这篇论文中,我们假设标点符号在情感分析中发挥重要作用,并提出一种新的模型来提高句法和语境的表现。 我们通过在公开可用的数据集上进行实验来证实我们的发现,并验证我们的模型能够比其他最先进的基线方法更准确地识别情绪。

一句话总结:本文认为标点符号是文本数据的显著特征,通过利用标点符号和句法树(组成分析)之间的关联,使用一层BiGRU生成句法树向量再与原本的文本向量结合在一起生成新的句子嵌入。这些通过句法树增强后的词嵌入能够更好的传达句子的上下文意义(特别是当标点符号引起句子歧义时,如标题所示),并且更好区别这些句子(余弦相似度比其他模型小)。然后将这一嵌入应用在情感分析任务中,在三个数据集上都比最先进的基线模型(BERT)表现好。

这篇文章说是标点符号对文本语义的影响,不如说是在神经网络模型中加入句法树能够更好地表达上下文。

可借鉴的思路:

  • 在词向量上扩充(考虑标点符号),使得语义的表达更加完善,比如引入组成分析生成句法树;
  • 如何判断标点符号对句子的影响,人直接一读就知道两个句子意思不一样,而机器可以通过计算句子余弦相似度来判断

1.引言

文中引出了一个寓言故事,凯撒发布一条命令决定赦免一位肆无忌惮的将军:‘execute not,liberate’,但是在传递信息的时候出现错误,变成了“execute,not liberate”,结果就是这位将军被处死啦!

现在,人们的观点主要来自于网络上的文本数据,情感分析已经成为NLP领域很重要的任务之一。情感分析的目的就是判别人们对于产品、服务、文章等的观点或态度。传统的情感分类方法使用了复杂的特征工程,并且独立于上下文之间的联系。现在词和句子的embedding工具有word2vec、glove、bert等,他们创建了一个低维的潜在语义表示,使用向量之间的距离来计算语义相似性和推断上下文。此外,Wikipedia等公共语料库上预训练的嵌入被广泛使用,因为它们减少了训练NLP相关任务的非平凡计算时间。bert

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值