NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容,这样读者就能够通过最少的文字,了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义,所以在做长文本分类任务时,我们可以采用文本摘要算法将长文本的摘要抽取出来,在采用短文本分类模型去做文本分类,有时会起到出奇的好效果。
文本摘要自动生成算法
文本摘要抽取算法主要分为两大类:
- 一种是生成式:生成式一般采用的是监督式学习算法,最常见的就是sequence2sequence模型,需要大量的训练数据。生成式的优点是模型可以学会自己总结文章的内容,而它的缺点是生成的摘要可能会出现语句不通顺的情况。
- 另一种是抽取式:常见的算法是 textrank,MMR(Maximal Marginal Relevance),当然也可以采用深度学习算法。抽取式指的摘要是从文章中抽出一些重要的句子,代表整篇文章的内容。抽取式的优点是生成的摘要不会出现语句不通顺的情况,而它的缺点是缺乏文本总结能力,生成的摘要可能出现信息丢失的情况。
最大边界相关算法MMR(Maximal Marginal Relevance)
MMR算法又叫最大边界相关算法