四、自然语言中的生成式任务

zly_ir

已于 2024-03-13 11:09:35 修改

阅读量853

点赞数 19

分类专栏： NLP自然语言处理文章标签：自然语言处理人工智能

于 2024-03-13 11:05:17 首次发布

本文链接：https://blog.csdn.net/zly_ir/article/details/136674147

版权

NLP自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

NLP学习笔记系列，欢迎收藏交流：

二、NLP中的序列标注（分词、主体识别）-CSDN博客

三、NLP中的句子关系判断-CSDN博客

四、自然语言中的生成式任务-CSDN博客

4.0 机器翻译

将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，输入为源语言句子，输出为相应的目标语言的句子。口语中文平均句子长度：7.8个词，书写中文平均句子长度：22.5个词。

传统的机器翻译：

1、基于规则（句法分析，人工编写规则）、基于统计，比较简单，即给定源语言s，求目标语言t的条件概率p(t | s) （1.2 生成式模型中讲到的），效果和现在神经网络的方法相比差的比较多，有兴趣的可以参考：

Nirenburg S. Knowledge-based machine translation[J]. Machine Translation, 1989, 4: 5-24.

Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual meeting of the Association for Computational Linguistics. 2002: 295-302.

2、基于神经网络的：

最早利用RNN做机器翻译，但RNN的缺点是梯度爆炸无法记住很长的上文，且网络结构注定只能串行输入：

Kalchbrenner N, Blunsom P. Recurrent continuous translation models[C]//Proceedings of the 2013 conference on empirical methods in natural language processing. 2013: 1700-1709.

随后最有名的也是transformer的起源：

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

4.1 文本摘要

4.1.1 抽取式摘要

依据主题、查询词等，找出文章中最相关的n个句子，组成摘要。主题抽取的方式有很多，诸如LDA、KNN等，相关性计算的方式也有很多，可以参考3.0的内容。连贯性较差。

（1）Lead-3算法：一般来说，作者常常会在标题和文章开始就表明主题，因此最简单的方法就是抽取文章中的前几句作为摘要。常用的方法为 Lead-3，即抽取文章的前三句作为文章的摘要。

（2）TextRank：仿造PageRank（PageRank简介，跟不懂的同学们一起分享一下_pagerank中page的意思-CSDN博客）的一种算法，将句子作为节点，使用句子间相似度，构造无向有权边。使用边上的权值迭代更新节点值（PageRank的更新流程），最后选取 N 个得分最高的节点，作为摘要。句子间的相似度计算如下：

（3）聚类的方式：将文章中的句子视为一个点，按照聚类的方式完成摘要。例如可以对句子先进行向量化（参考第0章中的内容），然后利用K-means（需指定中心数量）对句子进行聚类，然后得到每一个类别距离中心最近的句子作为摘要句。

（4）序列标注的方法（句子分类模型）：为原文中的每一个句子打一个二分类标签（0 或 1），0 代表该句不属于摘要，1 代表该句属于摘要。最终摘要由所有标签为 1 的句子构成。基本流程是：句子向量化->分类模型->得到是摘要的句子组成摘要。论文参考：

Nallapati R, Zhai F, Zhou B. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents[C]//Proceedings of the AAAI conference on artificial intelligence. 2017, 31(1).

（5）排序式的摘要生成方法：将（4）中的打分和选择句子放在一个步骤进行，单向 GRU 记录已抽取的句子+双层 MLP打分，每一步训练选择使目标评价函数最大的的句子。

Zhou Q, Yang N, Wei F, et al. Neural document summarization by jointly learning to score and select sentences[J]. arXiv preprint arXiv:1807.02305, 2018.