Huggingface-文本摘要

任务概述

看作是一个段落到概括性总结的映射(Seq2Seq任务)

数据集采用suolyer/lcsts

 

dataset数据处理

1.过滤数据dataset.filter

books_dataset = chinese_dataset.filter(lambda x: len(x["output"]) > 4)

过滤掉输出小于4对应的行

2.对每一行文字进行分词dataset.map

tokenized_datasets = books_dataset.map(preprocess_function, batched=True)

其中preprocess_function是包含分词器的分词函数,处理原dataset数据类型的结果是为每一个文本增加新的key

导入分词器

from transformers import AutoTokenizer

model_checkpoint = "google/mt5-small"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

1.导入分词器,由于是序列到序列的任务,对于输入和标签的分词可以采用不同的分词器

2.每个任务的分词器的输出不一样,一般来说是将句子转化为ID、mask,对每个句子的处理结果将会是一个字典。

 preprocess_function:

max_input_length = 512 #最大输入长度
max_target_length = 30 #摘要最长限制


def preprocess_function(examples):
    model_inputs = tokenizer(
        examples["input"], max_length=max_input_length, truncation=True
    )
    # 标签处理方法人家也提供了,考虑到翻译任务中两种语言不同,单独设立分词器
    with tokenizer.as_target_tokenizer():
        labels = tokenizer(
            examples["output"], max_length=max_target_length, truncation=True
        )
    model_inputs["labels"] = labels["input_ids"]#为每一个文本新增加键值对
    return model_inputs

处理完成的结果

评价函数 

召回率=输出复现标签的词数/标签里的词数,判断能否复现标签

准确率=输出复现标签的词数/输出里的词数,防止输出过长,无用信息太多

缺陷是无法考虑序列特性,因此出现了rouge_2

 

 还有rouge-S、rouge-L

自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S-CSDN博客文章浏览阅读2.6w次,点赞25次,收藏117次。关于ROUGEROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘以及机器翻译的一组指标。ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系..._rouge-1https://blog.csdn.net/mch2869253130/article/details/89810974

自定义评价函数 

from datasets import load_metric

rouge_score = load_metric("rouge",trust_remote_code=True)#自备梯子

 模型训练完的后处理pipline

模型输出的结果只是输出每个词对应的概率,需要取TOP-K转化为字典里的词,pipline拿到输出结果就可以输出文本ID完成测试

一个段落放入model之后的输出

 topk转化为概率之后通过分词器的解码器还原为文字

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值