大语言模型常见任务及评测数据集汇总(一):70 余个数据集!

1. 文本分类

1.1. 中文文本分类数据集:

    • THUCNews:清华大学推出的中文新闻文本数据集,包含了74万篇新闻文章,覆盖了10个类别。
    • LCQMC:哈尔滨工业大学发布的数据集,主要用于中文句子匹配任务,也常用于文本分类。
    • BQ Corpus:同样用于中文句子匹配,也可用于文本分类。

1.2. 英文文本分类数据集:

    • IMDb:包含50,000条影评数据,分为正面和负面两类,常用于情感分析。
    • 20 Newsgroups:包含约20,000条新闻组文档,分为20个类别。
    • AG News:包含超过1百万条新闻文章,分为4个类别。
    • Yahoo! Answers:包含约1.4百万条来自Yahoo! Answers的数据,分为10个类别。
    • DBpedia:从维基百科抽取的14个类别的数据集,包含560,000个训练样本和70,000个测试样本。

1.3. 多语言文本分类数据集:

    • MultiNLI:包含433,000个英文句子对,用于自然语言推理任务,也适用于文本分类。
    • XNLI:扩展的MultiNLI,包含15种语言的100,000个句子对。

2. 机器翻译

2.1. 英文-中文翻译数据集:

    • WMT’14 English-French:广泛使用的英文-法语翻译数据集,包含了约40亿个词对。
    • WMT’16 English-German:另一个广泛使用的英文-德语翻译数据集,包含了约40亿个词对。
    • WMT’17 English-Chinese:英文-中文翻译数据集,包含了约20亿个词对。
    • IWSLT:国际工作坊口语翻译评测(International Workshop on Spoken Language Translation)提供的数据集,包含多个语言对的翻译数据,其中包括英文-中文。

2.2. 其他语言对翻译数据集:

    • WMT’14 English-Russian:英文-俄语翻译数据集,包含了约20亿个词对。
    • WMT’14 English-Spanish:英文-西班牙语翻译数据集,包含了约20亿个词对。
    • WMT’14 English-Czech:英文-捷克语翻译数据集,包含了约10亿个词对。
    • WMT’14 English-Hebrew:英文-希伯来语翻译数据集,包含了约5亿个词对。

2.3. 多语言翻译数据集:

    • TED Talks:包含多种语言对的翻译数据,主要来自于TED演讲的翻译。
    • ParaCrawl:一个大规模的多语言平行语料库,包含了多种欧洲语言的翻译数据。

3. 问答系统

  1. SQuAD (Stanford Question Answering Dataset):这是一个非常流行的问答数据集,包含了10万多个问题,这些问题是由人工针对维基百科文章提出的。每个问题都有一个对应的答案,这个答案是从相应的文章中抽取的。
  2. MS MARCO (Microsoft Machine Reading Comprehension):这个数据集由微软创建,包含了10万多个真实用户的查询,以及从网上爬取的相关文档。这些查询和文档被用来创建问题和答案对。
  3. DuReader:这是由百度创建的一个大规模中文阅读理解数据集,包含了30万多个真实用户提出的问题,以及从网上爬取的相关文档。
  4. CoQA (Conversational Question Answering):这是一个对话式问答数据集,包含了11万个问题和答案对。这些问题和答案是由人工针对故事文章进行的。
  5. TriviaQA:这个数据集包含了95万个问题,这些问题是由TriviaQA的作者从Trivia和Jeopardy等问答游戏中提取的。每个问题都有一个对应的答案,这个答案是从一个大的、无结构的文本语料库中抽取的。
  6. Natural Questions:这是一个真实世界的问题数据集,包含了30万个真实用户在谷歌搜索引擎中提出的问题。这些问题和答案都是由人工标注的。
  7. WebQA:这是一个中文的问答数据集,包含了42万个问题和答案对。这些问题和答案都是从互联网上爬取的。

4. 情感分析

  1. IMDb:这是一个广泛使用的电影评论数据集,包含了25,000条训练数据和25,000条测试数据,分为正面和负面两类。
  2. Twitter:Twitter情感分析数据集通常包含大量的推文,这些推文被标注为正面、负面或中性情绪。例如,Sentiment140数据集包含了160,000条带情感标签的推文。
  3. Amazon Product Reviews:这个数据集包含了数百万条亚马逊产品评论,每条评论都有一个评分和文本内容,可以用于二分类或多分类情感分析。
  4. Yelp Reviews:Yelp提供的数据集包含了大量的用户评论,这些评论有关餐馆、服务和其他业务,每条评论都有一个评分,可以用于情感分析。
  5. Stanford Sentiment Treebank (SST):这是一个基于句子解析树的情感分析数据集,包含了11,855条句子,每个单词都被标注了情感标签。
  6. Multi-domain Sentiment Dataset (MV):这个数据集包含了多个领域的评论,如书籍、DVD、电子产品等,每条评论都有一个情感评分。
  7. Customer Review Dataset:这是一个包含多种产品类别的顾客评论数据集,可以用于多分类情感分析。
  8. EmoInt:这是一个针对情感强度识别的数据集,包含了12,000条带有情感强度标签的推文。
  9. Irony Detection Datasets:这些数据集专门用于讽刺和幽默的检测,如SemEval任务中的讽刺检测子任务。
  10. Financial Sentiment Datasets:这些数据集包含了财经新闻和报告,用于分析市场情绪和趋势。

5. 文本生成

  1. BookCorpus:一个从网络上抓取的包含多种领域书籍的文本数据集,常用于语言模型的预训练。
  2. Wikipedia:维基百科的英文或其它语言版本,包含了大量的知识性文本,是训练语言模型的重要数据源。
  3. Common Crawl:一个庞大的网络爬取数据集,包含了互联网上大量的网页文本,用于训练大规模的语言模型。
  4. WebText:由OpenAI创建的一个高质量的网络文本数据集,通过过滤和清洗Common Crawl数据得到。
  5. Gutenberg电子书语料库:一个包含超过60,000本免费电子书的语料库,可以用来训练文本生成模型。
  6. arXiv:一个包含物理学、数学、计算机科学等领域预印本论文的数据集,用于训练特定领域的文本生成模型。
  7. OpenWebText:一个开源的、经过清洗的网页文本数据集,从Reddit上分享的链接中提取得到。
  8. StoryCloze:一个用于故事理解和生成的数据集,包含了大量的故事句子和结尾。
  9. WritingPrompts:一个包含创意写作提示和用户生成的故事的数据集,常用于文本生成任务。
  10. Yahoo! Answers Comprehensive Questions and Answers:一个包含用户提问和回答的数据集,可以用于训练对话和问答生成模型。

6. 文本相似度
 

  1. SNLI (Stanford Natural Language Inference):虽然这是一个用于自然语言推理的数据集,但它也常用于文本相似度任务,因为它包含了大量的句子对,并标注了它们之间的关系(矛盾、中立、蕴含)。
  2. STS (Semantic Textual Similarity):这是一个广泛使用的文本相似度数据集,包含了多个子集,如STS Benchmark、STS 2012-2016等。这些数据集提供了句子对的相似度评分,通常是在1到5的范围内。
  3. MSR Paraphrase Corpus:这个数据集包含了大量的句子对,每个句子对都被标注为是否是 paraphrase。
  4. Quora Question Pairs:这个数据集包含了来自Quora的问题对,每个问题对都被标注为是否是相同的。
  5. Twitter URL Correlation:这个数据集包含了来自Twitter的URL和推文对,每个对都被标注为是否是相关的。
  6. SICK (Sentences Involving Compositional Knowledge):这是一个包含了句子对的数据集,每个句子对都有一个相似度评分和相关性的标签。
  7. Semantic Evaluation (SemEval) Shared Tasks:SemEval每年都会举办共享任务,其中就包括文本相似度任务,因此会产生大量的数据集。

7. 摘要生成

  1. CNN/Daily Mail:这是一个广泛使用的数据集,包含了新闻文章和它们的摘要。每个文章都被提取了若干个关键信息,并生成了一个简洁的摘要。
  2. Gigaword:这个数据集包含了大量的新闻文章标题和它们的摘要。摘要通常是由文章的第一句话组成的。
  3. NYT (New York Times) Annotated Corpus:这个数据集包含了来自纽约时报的文章和它们的摘要。这些摘要通常是由专业编辑撰写的。
  4. PubMed Abstracts:这是一个包含科学论文摘要的数据集,通常用于生成科学文献的摘要。
  5. arXiv Abstracts:这个数据集包含了物理学、数学、计算机科学等领域预印本论文的摘要。
  6. LCSTS (Large Scale Chinese Short Text Summarization):这是一个大规模的中文短文本摘要数据集,包含了大量的新闻标题和摘要。
  7. XSum (Extreme Summarization):这是一个极端摘要数据集,其中的摘要是由单一句子组成的,通常是从文章中提取的最关键的信息。
  8. WikiHow:这个数据集包含了来自WikiHow网站的文章和它们的摘要。这些文章通常包含了如何做某事的步骤。
  9. Amazon Reviews:这个数据集包含了亚马逊产品评论,可以用于生成产品评论的摘要。
  10. Reddit TIFU Stories:这个数据集包含了Reddit上的"TIFU"(Today I Fucked Up)故事,可以用于生成故事的摘要。

7. 语音识别

  1. LibriSpeech:这是一个包含大量英文有声书籍的语料库,常用于训练和评估英文语音识别系统。
  2. VoxForge:这是一个开源的语音识别数据集,包含了多种语言的语音数据,用户可以自由下载和使用。
  3. TIMIT:这是一个广泛使用的英文语音识别数据集,包含了大量的语音样本和对应的文本转录。
  4. WSJ (Wall Street Journal):这是一个包含-wsj杂志文章语音录音的数据集,常用于评估语音识别系统。
  5. CHiME (Cambridge Hindi Medium English):这是一个用于研究在噪声环境下语音识别的数据集,包含了带噪声的英文语音数据。
  6. Switchboard:这是一个包含电话对话录音的数据集,常用于训练和评估对话语音识别系统。
  7. Common Voice:这是一个由Mozilla发起的开源项目,旨在收集全球范围内的语音数据,以用于训练语音识别系统。
  8. THCHS-30:这是一个中文语音识别数据集,包含了30小时的普通话语音录音。
  9. Aishell:这是一个大规模的中文语音识别数据集,包含了近1500小时的普通话语音录音。
  10. Free ST Chinese Mandarin Corpus:这是一个中文语音识别数据集,包含了大约100小时的普通话语音录音。

8. 推理任务

  1. COPA (Causal Relations):这是一个因果关系推理的数据集,包含了关于因果关系的陈述,要求模型选择正确的因果关系。
  2. WiC (Word in Context):这个数据集包含了单词的同义词对,要求模型判断两个句子是否具有相同的含义。
  3. MultiRC (Multi-Sentence Reading Comprehension):这是一个多句子阅读理解的数据集,要求模型理解句子之间的关系。
  4. ARC (Adversarial Reading Comprehension):这是一个对抗性的阅读理解数据集,包含了多个子任务,如因果关系推理、事实性判断等。
  5. Social IQA (Social Intelligence Questions Answering):这个数据集包含了关于社会常识的推理问题,要求模型理解社会背景和人物关系。
  6. ReClor (Reasoning in Commitment and Obligation Relations):这是一个推理数据集,要求模型理解和应用义务关系。
  7. TREC-6 (Text REtrieval Conference):这个数据集包含了多个领域的推理问题,如数学推理、逻辑推理等。
  8. LogiQA (Logical Question Answering):这是一个逻辑推理数据集,包含了多种逻辑关系的问题。
  9. REALM (REasoning Across RElated MEntities):这个数据集包含了多个子任务,如事实性判断、因果关系推理等。
  10. ProPara:这是一个基于段落的推理数据集,包含了多种推理任务,如因果关系推理、逻辑推


 

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
当然可以!以下是使用Python搭建XGBoost模型进行鸢尾花数据集分类任务的示例代码: ```python # 导入所需库 import xgboost as xgb from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 data = load_iris() X = data.data y = data.target # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 定义模型参数 params = { 'objective': 'multi:softmax', # 多分类问题 'num_class': 3, # 类别数量 'max_depth': 3, # 决策树最大深度 'eta': 0.1, # 学习率 'subsample': 0.7, # 随机采样训练样本 'colsample_bytree': 0.7, # 随机采样特征 'seed': 42 # 随机种子 } # 将数据转换为DMatrix格式 dtrain = xgb.DMatrix(X_train, label=y_train) dtest = xgb.DMatrix(X_test) # 训练模型 model = xgb.train(params, dtrain) # 预测 y_pred = model.predict(dtest) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print("准确率:", accuracy) ``` 这段代码首先导入了所需的库,然后加载鸢尾花数据集并划分为训练集和测试集。接下来,定义了XGBoost模型的参数,包括目标函数、类别数量、决策树最大深度、学习率等。然后,将训练集数据转换为DMatrix格式,用于训练模型。训练完成后,使用测试集数据进行预测,并计算准确率。 注意:在运行代码之前,请确保已经安装了XGBoost库和Scikit-learn库。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰淇淋百宝箱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值