情感分析常见数据集以及任务进展

情感分析

原文:https://github.com/sebastianruder/NLP-progress/blob/master/english/sentiment_analysis.md

IMDb

IMDb数据集是一个二分类的情感分析数据集,包括了来自Internet Movie Database(IMDb)的50000条电影评论,分别标注为正面和负面两类情感。数据集包含偶数个正面和负面评论。评论打分满分为10分,分数<=4归为负面评论,分数>=7归为正面评论。每部电影的评论不得超过30条。基于准确性评估模型
在这里插入图片描述

SST:SST-5,SST-2

Stanford Sentiment Treebank在电影评论中的11,855个句子的语法分析树中包含215,154个带有细粒度情感标签的短语。 根据准确率对模型进行细粒度(五向)或二进制分类。
在这里插入图片描述
在这里插入图片描述

Yelp

Yelp评论数据集包含500,000个Yelp评论。数据集既有二分类也有细粒度(五类)的版本,根据误差error评价模型

在这里插入图片描述

SemEval-2017 Task4

International Workshop on Semantic Evaluation是一个国际语义研讨会,每年都会发布自然语言处理领域的相关任务,最新关于情感分析的任务如下:
SemEval-2017任务4包含五个子任务,每个子任务都提供阿拉伯语和英语:

  1. 子任务A:给定一条推文,确定它表示正面,负面还是中立情绪。
  2. 子任务B:给定一条推文和一个主题,对传达给该主题的情绪进行分类:积极与消极
  3. 子任务C:给定一条推文和一个主题,以5分制对推文中对该主题表达的情感进行分类:强正,弱,中性,弱和强。
  4. 子任务D:给定关于主题的一组推文,估计推文在POSITIVE和NEGATIVE类中的分布。
  5. 子任务E:给定关于主题的一组推文,估计推文在以下五个类中的分布:强正,弱正,中性,弱正和强负。
    在这里插入图片描述

方面级情感分析

Sentihood

Sentihood是用于基于方面的目标情感分析targeted aspect-based sentiment analysis (TABSA)的数据集,旨在识别针对特定方面的细粒度极性。 数据集包含5,215个句子,其中3,862个包含单个目标,其余多个目标。
Dataset mirror: https://github.com/uclmr/jack/tree/master/data/sentihood

在这里插入图片描述

SemEval-2014 Task 4

SemEval-2014任务4包含两个特定领域(笔记本电脑和餐厅)的数据集,由超过6K的句子以及细粒度的方面级人类注释组成。
该任务包含以下子任务:

  1. 任务A:方面提取
  2. 任务B:方面极性分类
  3. 任务C:方面类别探测
  4. 任务D:方面类别极性分类

Preprocessed dataset: https://github.com/songyouwei/ABSA-PyTorch/tree/master/datasets/semeval14
https://github.com/howardhsu/BERT-for-RRC-ABSA (with both subtask 1 and subtask 2)

在这里插入图片描述
在这里插入图片描述

Sentiment classification with user and product information 带有用户和产品信息的情感分类

这是关于情感分类的相同任务,其中给定的文本是评论,但我们还额外得到(a)编写文本的用户,以及(b)为其编写文本的产品。 Tang等人介绍了三种广泛使用的数据集。 (2015):IMDB,Yelp 2013和Yelp2014。评估是同时使用准确性和RMSE进行的,但为简洁起见,我们仅在此处提供准确性。 请查看有关RMSE值的文件。

在这里插入图片描述

Subjectivity analysis

与情感分析相关的任务是主观性分析,其目标是将观点标记为主观或客观。
在这里插入图片描述

  • 6
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值