Stanford Natural Language Inference (SNLI)和Multi-Genre NLI Corpus(MultiNLI) 数据集



Stanford Natural Language Inference (SNLI)和Multi-Genre NLI Corpus(MultiNLI) 数据集

https://nlp.stanford.edu/projects/snli/
https://www.nyu.edu/projects/bowman/multinli/
MultiNLI是SNLI的升级版,格式一样,规模相当,但是前者变化更多,也包含了一个辅助测试集用于cross-genre transfer 评估

SNLI1.0包含570,000的人工手写英文句子对,人工标注了平衡的分类标签:蕴含entailment,矛盾,中性
支持NLI(natural language inference)任务,也被视为RTE( recognizing textual entailment )任务

详细介绍:
Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 2015. A large annotated corpus for learning natural language inference. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). [pdf] [bib]

除了gold label,还包含了5个标注人的评估结果,另外句子以两种解析表示:

gold_label sentence1_binary_parse sentence2_binary_parse sentence1_parse sentence2_parse sentence1 sentence2 captionID pairID label1 label2 label3 label4 label5
neutral ( ( ( A person ) ( on ( a horse ) ) ) ( ( jumps ( over ( a ( broken ( down airplane ) ) ) ) ) . ) ) ( ( A person ) ( ( is ( ( training ( his horse ) ) ( for ( a competition ) ) ) ) . ) ) (ROOT (S (NP (NP (DT A) (NN person)) (PP (IN on) (NP (DT a) (NN horse)))) (VP (VBZ jumps) (PP (IN over) (NP (DT a) (JJ broken) (JJ down) (NN airplane)))) (. .))) (ROOT (S (NP (DT A) (NN person)) (VP (VBZ is) (VP (VBG training) (NP (PRP$ his) (NN horse)) (PP (IN for) (NP (DT a) (NN competition))))) (. .))) A person on a horse jumps over a broken down airplane. A person is training his horse for a competition. 3416050480.jpg#4 3416050480.jpg#4r1n neutral 



Stanford-sentiment-treebank(斯坦福情感树库)是一个用于情感分析的数据集。这个数据集由斯坦福大学的研究人员创建,并用于训练和测试情感分析模型。 Stanford-sentiment-treebank的数据集包含了超过11,855个子,这些子被分为了5个情感类别:非常负面、负面、中性、正面和非常正面。每个子都经过了人工标注和建立了情感树结构。 情感树结构是指将每个子划分为一个树状结构,其中每个节点表示一个短语或单词,并且每个节点都有一个对应的情感标签。根节点代表整个子的情感,而叶子节点代表具体的短语或单词的情感。 借助这个数据集,研究人员可以训练机器学习模型来识别和预测子的情感。通过对情感树进行分析,研究人员可以了解到不同单词和短语在不同情感类别中的关联性,从而提高情感分析模型的准确性。 Stanford-sentiment-treebank的数据集被广泛用于情感分析领域的研究和实践。它为研究人员提供了一个基准数据集,用于比较不同情感分析模型的效果。此外,它也为开发者提供了一个用于训练和测试自然语言处理模型的有价值资源。 总而言之,Stanford-sentiment-treebank是一个用于情感分析研究的重要数据集。它通过情感树的结构为研究人员提供了对子情感的深入理解,并促进了情感分析模型的开发和改进。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值