AI实战：文本自动摘要简述

最新推荐文章于 2024-05-29 07:27:12 发布

szZack

最新推荐文章于 2024-05-29 07:27:12 发布

阅读量3.5k

点赞数 1

分类专栏：自然语言处理深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zengNLP/article/details/104113374

版权

人工智能同时被 3 个专栏收录

109 篇文章 9 订阅

订阅专栏

94 篇文章 10 订阅

订阅专栏

自然语言处理

36 篇文章 8 订阅

订阅专栏

文本自动摘要

两大分类

抽取式摘要
生成式摘要

1、抽取式摘要

分为无监督和有监督。

无监督方法：
（1）基于统计特征的tfidf
（2）文本聚类
（3）基于图特征的TextRank、LexRank
（4）MMR，全称为Maximal Marginal Relevance，它的核心思想同时考虑了内容相关性和多样性
（5）submodular（次模）函数
有监督方法：
（1）SummaRuNNer：基于RNN，词级别做RNN编码，句子级别做RNN编码，最后判断每个句子是否属于摘要句子。
论文地址：SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents

2、生成式摘要

大部分都是基于的seq2seq框架

常见问题：
（1）OOV问题
（2）摘要的可读性
（3）摘要的重复性
（4）长文本摘要生成难度大
（5）模型的训练目标与最终的评测指标不太一致
模型：
- Pointer-network
  - 主要针对问题1,2,3
  - 论文地址：Get To The Point: Summarization with Pointer-Generator Networks
- Neural Headline Generation with Minimum Risk Training
  - 主要针对问题5
  - 论文地址：Neural Headline Generation with Minimum Risk Training
- Attention Model
- Attention-Based Summarization(ABS)
- ABS+
- Recurrent Attentive Summarizer
- big-words-lvt2k-1sent
- words-lvt2k-2sent-hieratt
- feats-lvt2k-2sent-ptr
- COPYNET
- 基于预训练语言模型BERT/XLNET/GPT等的方法
  如：基于预训练自然语言生成的文本摘要方法
模型介绍参考：https://www.jianshu.com/p/2baeaf249a9a

中文语料库

Large Scale Chinese Short Text Summarization Dataset（LCSTS）
这是一个中文短文本摘要数据集，数据采集自新浪微博。

测评方法

Edmundson
Edmundson评价方法比较简单，是通过比较自动文摘与目标文摘的句子重合率的高低来对系统摘要进行评价。
ROUGE
ROUGE是由ISI的Lin和Hovy提出的一种自动摘要评价方法，是主流测评方法。

ROUGE-N系列，其实就是以n-gram为基本单元，计算两个句子之间的n-gram重合率。每个ROUGE系列的计算结果又可以细分为precision，recall和f-beta分数。

ROUGE-L是针对是最长公共子序列的重合率计算。

ROGUE-W与ROUGE-L类似，不同的是考虑了连续最长公共子序列应该拥有更大的权重。

ROUGE-S，基于的是skip-gram。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
AI实战：文本自动摘要简述

文本自动摘要两大分类抽取式摘要生成式摘要1、抽取式摘要分为无监督和有监督。无监督方法：（1）基于统计特征的tfidf（2）文本聚类（3）基于图特征的TextRank、LexRank（4）MMR，全称为Maximal Marginal Relevance，它的核心思想同时考虑了内容相关性和多样性（5）submodular（次模）函数有监督方法：（1）SummaR...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

szZack 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。