自然语言数据集分享
文章平均质量分 51
AINLPer
这个作者很懒,什么都没留下…
展开
-
碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%
碾压LoRA!Meta & CMU | 提出高效大模型微调方法:GaLore,内存可减少63.3%原创 2024-03-17 15:14:47 · 1720 阅读 · 0 评论 -
BIG-Bench Hard 数据集分享
BIG-Bench Hard 数据集分享原创 2024-03-17 14:43:51 · 2524 阅读 · 0 评论 -
BiG-Bench数据集分享
Big-Bench数据集分享原创 2024-03-15 09:29:38 · 677 阅读 · 0 评论 -
MBPP数据集分享
MBPP数据集分享原创 2024-03-15 09:26:58 · 1496 阅读 · 0 评论 -
APPS数据集分享
APPS数据集分享原创 2024-03-14 09:38:43 · 536 阅读 · 0 评论 -
HumanEval数据集分享
HumanEval数据集分享原创 2024-03-14 09:37:35 · 1398 阅读 · 0 评论 -
QuALITY数据集分享
QuALITY数据集分享原创 2024-03-12 11:01:35 · 664 阅读 · 0 评论 -
RACE数据集分享
RACE数据集分享原创 2024-03-12 10:59:11 · 622 阅读 · 0 评论 -
DROP数据集分享
DROP数据集分享原创 2024-03-11 09:31:54 · 600 阅读 · 0 评论 -
WinoGrande数据集分享
WinoGrande数据集分享原创 2024-03-11 09:29:30 · 1185 阅读 · 0 评论 -
HellaSwag数据集分享
HellaSwag数据集分享原创 2024-03-10 18:13:24 · 1276 阅读 · 0 评论 -
MATH数据集分享
MATH数据集分享原创 2024-03-10 18:11:46 · 839 阅读 · 0 评论 -
MGSM数据集分享
MGSM数据集分享原创 2024-03-09 12:18:26 · 840 阅读 · 0 评论 -
GSM8K数据集分享
GSM8K数据集分享原创 2024-03-09 12:16:23 · 937 阅读 · 0 评论 -
ARC-Challenge数据集分享
ARC-Challenge数据集分享原创 2024-03-08 20:36:28 · 1214 阅读 · 0 评论 -
PubMedQA数据集分享
这个数据集的主题分布涵盖了广泛的研究领域,包括回顾性、前瞻性和队列研究,不同年龄组,以及与医疗保健相关的主题,比如治疗结果、预后和疾病风险因素。:这个子集包含了 211,300 个 PubMed 文章,根据论文标题自动生成的问题和使用简单启发式方法生成的是/否答案标签。:这个子集包含了从 PubMed 文章中收集的 1,000 个手动注释的是/否/可能的问答数据。:这个无标签的子集包含了从 PubMed 文章中收集的 61,200 个上下文-问题对数据。编辑: ShuYini。原创 2024-03-08 20:33:28 · 636 阅读 · 0 评论 -
GPQA数据集分享
该数据集的问题极其难解,即便是在该领域已取得或正在攻读博士学位的专家,正确率也只有65%。而对同等专业背景但不同学科的非专家来说,正确率仅为34%。该数据集难度巨大,现有AI模型如GPT-4在该数据集上的正确率也仅为39%。GPQA数据集的设计考虑到了专家与非专家之间的知识差距。通过让专家编写问题并验证答案的客观性,同时让非专家尝试解决问题,可以确保数据集的问题对于非专家来说是具有挑战性的。尽管AI系统在许多任务上表现出色,但在需要大量专业知识和推理能力的任务上仍然存在局限性。编辑: ShuYini。原创 2024-03-07 20:47:16 · 1402 阅读 · 0 评论 -
MMLU数据集分享
MMLU数据集原创 2024-03-07 20:39:28 · 1293 阅读 · 0 评论 -
「自然语言处理(NLP)」一千多万公司企业注册数据集分享
来源: AINLPer 微信公众号(每日更新…)编辑: ShuYini校稿: ShuYini时间: 2020-03-08数据集介绍 中国大陆 31 个省份 1978 年至 2019 年一千多万工商企业注册信息,包含企业名称、注册地址、统一社会信用代码、地区、注册日期、经营范围、法人代表、注册资金、企业类型。数据集格式 当前只有CSV 文件格式的数据(编码为 UTF-8...原创 2021-01-15 09:30:58 · 703 阅读 · 0 评论 -
「自然语言处理(NLP)」中文自然语言处理可能用到的数据集
来源: AINLPer微信公众号(每日更新…)编辑: ShuYini校稿: ShuYini时间: 2020-08-08引言: 给大家分享一下中文自然语言处理可能用到的数据集,感兴趣的小伙伴可以收藏,以备不时之需。具体主要包括:中文常用词停用词数据集、汉语拆字词表、中文词表、人名语料库、中文缩写数据库、中文专业领域词库、中文敏感词库、维基百科词条(104万)、新闻语料json版(250万篇)、百科类问答json版(150万)、社区问答json版(410万)、**翻译语料(520万对)**等以.原创 2020-08-08 17:37:48 · 2382 阅读 · 3 评论