昇思25天学习打卡营第XX天|基于MindSpore的GPT2文本摘要

最新推荐文章于 2024-09-04 20:23:24 发布

woqubuchuming

最新推荐文章于 2024-09-04 20:23:24 发布

阅读量156

点赞数 8

分类专栏：昇思25天学习打卡营文章标签：学习

本文链接：https://blog.csdn.net/woqubuchuming/article/details/140806799

版权

昇思25天学习打卡营专栏收录该内容

25 篇文章 0 订阅

订阅专栏

from mindnlp.utils import http_get

# download dataset
url = 'https://download.mindspore.cn/toolkits/mindnlp/dataset/text_generation/nlpcc2017/train_with_summ.txt'
path = http_get(url, './')

数据预处理因GPT2无中文的tokenizer，我们使用BertTokenizer替代。

原始数据格式：
```
article: [CLS] article_context [SEP]
summary: [CLS] summary_context [SEP]
```
预处理后的数据格式：
```
[CLS] article_context [SEP] summary_context [SEP]
```

这些任务都挺基础的，数据集却没有只选最久的，还是蛮值得看看

NLPCC2017（第六届中国计算语言学大会）中的摘要任务涉及新闻正文及其摘要的数据集。以下是对相关数据集的介绍：

新闻标题分类数据集：该数据集由复旦大学提供，包含18个类别，共12,000条短文本新闻标题及其对应标签。这些数据主要来源于中国新闻网站，如头条、新浪等，并通过jieba工具进行了分词处理。新闻标题的长度大多小于40个字符，平均长度为21.05个字符8。
单文档摘要任务数据集（TTNews Corpus）：这个数据集专注于中文新闻文章的摘要生成，提供了大量的新闻文章用于单文档摘要任务。摘要任务旨在从长文档中提取或生成重要的信息，形成简短的摘要。TTNews数据集由9个团队参与提交结果，并且使用了ROUGE指标进行自动评估，摘要长度限制为60个中文字符10。
CNewSum数据集：由字节跳动AI实验室提出的CNewSum是一个大规模的中文新闻摘要数据集，包含304,307篇文档和人类撰写的摘要。这些文档和摘要来自Toutiao新闻源，数据集具有长文档和高抽象性摘要的特点，鼓励模型进行文档级别的理解和生成。CNewSum数据集的测试集还包括了摘要的充分性和可推断性注释，以帮助研究人员定位模型性能的瓶颈11。
中文摘要数据集汇总：在开发者社区中，有作者整理并开源了包括清华新闻、搜狗新闻、nlpcc2017摘要数据等在内的多个中文摘要数据集。这些数据集经过清洗，去除了HTML标记、多余的空字符和图片标记等，以构建一个较为完善的中文摘要数据集12。

woqubuchuming

关注

8
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
昇思25天学习打卡营第XX天|基于MindSpore的GPT2文本摘要

由字节跳动AI实验室提出的CNewSum是一个大规模的中文新闻摘要数据集，包含304,307篇文档和人类撰写的摘要。这些文档和摘要来自Toutiao新闻源，数据集具有长文档和高抽象性摘要的特点，鼓励模型进行文档级别的理解和生成。：这个数据集专注于中文新闻文章的摘要生成，提供了大量的新闻文章用于单文档摘要任务。摘要任务旨在从长文档中提取或生成重要的信息，形成简短的摘要。这些数据集经过清洗，去除了HTML标记、多余的空字符和图片标记等，以构建一个较为完善的中文摘要数据集12。
复制链接

扫一扫

专栏目录