TrecQA 数据集简介

TrecQA
------

 TrecQA 数据集一般用来评估QA的答案选择
 它由一下论文发表和组织:
+ Wang et al. [What is the Jeopardy Model? A Quasi-Synchronous Grammar for QA.](http://www.aclweb.org/anthology/D07-1003) *EMNLP-CoNLL 2007*.
+ Heilman and Smith. [Tree Edit Models for Recognizing Textual Entailments, Paraphrases,
and Answers to Questions.](http://www.aclweb.org/anthology/N10-1145) *NAACL 2010*.
+ Yao et al. [Answer Extraction as Sequence Tagging with Tree Edit Distance.](http://www.aclweb.org/anthology/N13-1106) *NAACL-HLT 2013*.

特别的,我们使用由Yao et al.准备好的数据集,他可以从http://cs.jhu.edu/~xuchen/packages/jacana-qa-naacl2013-data-results.tar.bz2下载

`jacana-qa-naacl2013-data-results.tar.bz2`的md5是 `11f0275e95691594cd74825e0c341b7a`
本文是readme的翻译

data目录含有4个类xml文件

+ `TRAIN.xml`
+ `TRAIN-ALL.xml`
+ `DEV.xml`
+ `TEST.xml`

这4个文件在原始数据集中的源文件是 :

```
train-less-than-40.manual-edit.xml: TRAIN in paper
train2393.cleanup.xml.gz:           TRAIN-ALL in paper
dev-less-than-40.manual-edit.xml:   DEV in paper
test-less-than-40.manual-edit.xml:  TEST in paper
```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值