昇思25天学习打卡营第XX天|基于MindSpore的GPT2文本摘要

from mindnlp.utils import http_get

# download dataset
url = 'https://download.mindspore.cn/toolkits/mindnlp/dataset/text_generation/nlpcc2017/train_with_summ.txt'
path = http_get(url, './')
  1. 数据预处理  因GPT2无中文的tokenizer,我们使用BertTokenizer替代。

    原始数据格式:

    article: [CLS] article_context [SEP]
    summary: [CLS] summary_context [SEP]
    

    预处理后的数据格式:

    [CLS] article_context [SEP] summary_context [SEP]

这些任务都挺基础的,数据集却没有只选最久的,还是蛮值得看看

NLPCC2017(第六届中国计算语言学大会)中的摘要任务涉及新闻正文及其摘要的数据集。以下是对相关数据集的介绍:

  1. 新闻标题分类数据集:该数据集由复旦大学提供,包含18个类别,共12,000条短文本新闻标题及其对应标签。这些数据主要来源于中国新闻网站,如头条、新浪等,并通过jieba工具进行了分词处理。新闻标题的长度大多小于40个字符,平均长度为21.05个字符8。

  2. 单文档摘要任务数据集(TTNews Corpus):这个数据集专注于中文新闻文章的摘要生成,提供了大量的新闻文章用于单文档摘要任务。摘要任务旨在从长文档中提取或生成重要的信息,形成简短的摘要。TTNews数据集由9个团队参与提交结果,并且使用了ROUGE指标进行自动评估,摘要长度限制为60个中文字符10。

  3. CNewSum数据集:由字节跳动AI实验室提出的CNewSum是一个大规模的中文新闻摘要数据集,包含304,307篇文档和人类撰写的摘要。这些文档和摘要来自Toutiao新闻源,数据集具有长文档和高抽象性摘要的特点,鼓励模型进行文档级别的理解和生成。CNewSum数据集的测试集还包括了摘要的充分性和可推断性注释,以帮助研究人员定位模型性能的瓶颈11。

  4. 中文摘要数据集汇总:在开发者社区中,有作者整理并开源了包括清华新闻、搜狗新闻、nlpcc2017摘要数据等在内的多个中文摘要数据集。这些数据集经过清洗,去除了HTML标记、多余的空字符和图片标记等,以构建一个较为完善的中文摘要数据集12。

  • 8
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值