Efficient Methods for Natural Language Processing: A Survey自然语言处理有效方法综述

雨下成一朵花

已于 2023-05-16 16:00:11 修改

阅读量603

点赞数

分类专栏：自然语言处理文章标签：自然语言处理算法人工智能

于 2023-05-16 15:30:13 首次发布

本文链接：https://blog.csdn.net/zql1009/article/details/130706778

版权

Efficient Methods for Natural Language Processing: A Survey

关于自然语言处理有效方法的一个综述，近来关于自然语言处理已经取得了非常显著的结果，特别是从缩放模型参数，训练数据。然而，仅仅使用缩放模型来改进性能意味着硬件资源消耗的扩大，包括的资源有数据，时间，存储和能耗，所有这些资源都是有限的，而且是分布不均匀。这些关于模型有效方法研究的动机是利用较少的资源获得相同的模型结果（效果）。本文章将概括、叙述当前的在自然语言研究方面的方法和结果。我们的目标即提供了在有限计算资源下研究nlp的指导，同时在探索更有效的方法上指明改进方向。

综述的范围：针对两类读者，只有有限资源的nlp的研究人员和改进nlp算法的研究人员。

下面从数据，模型设计，预训练，精调，推断和压缩模型，硬件使用，评价有效性，模型选择，来进行综述。

2. 数据的有效性（使用更少的训练样本改进数据效率，或充分利用当前的数据）

改进数据质量能提高模型性在预训练和精调阶段能降低训练成本

2.1 过滤

过滤掉重复的数据，能改进训练效率。同时能降低计算成本，特别庞大的预训练数据不利于有限的计算预算。

2.2 积极（主动）学习

主动学习的目的是减少训练实例的数量。与过滤不同，它是在数据收集期间（而不是之后），只注释最有用或最有用的训练实例（Settles，2012；Ren等人，2021b）。为了在不知道实例实际标签的情况下确定实例的有用性，可以使用模型不确定性——假设具有不确定性最高的标记实例是最有用的（刘易斯和盖尔，1994；唐等人，2002；加尔等人，2017；袁等，2020年）；实例的多样性（博多等人，2011；参议员和萨瓦雷斯，2018；吉辛和沙勒夫-什瓦茨，2019）；或这两个标准的组合（基什等人，2019；20阿什等人，2020；玛格蒂娜等人，2021年；西迪基等人，2021年；阿加瓦尔等人，2022年）。主动学习已成功地应用于机器翻译(MT，Liu等。2018年)、语言学习（李等人，2020年）、非实体链接（k等人，2020年）和共同参考文献（李等人，2020年；Yuan等人，2022年）。尽管主动学习有其优点，但一些开放的问题使主动学习难以在实践中应用。目前尚不清楚基于模型的抽样如何影响使用不同于抽样架构的模型的每个性能（Lowell等人，2019年；Ein-Dor等人，2020年）。此外，选择“困难”的实例可能会增加注释的成本和难度（Settles等人，2008；Lee等人，2022a）。最后，它容易产生选择偏差，并可能倾向于异常值（Cortes等人，2008年；卡拉姆切蒂等人，2021年）。

2.3 课程学习

课程学习旨在找到一个数据排序这就减少了所需的训练步骤数

为了达到目标绩效（Elman，1993；Bengio等人，2009）。这种方法不会减少数据集的大小，但确实提高了其利用率。因此，

它是在训练前和微调中提高训练效率的常用方法。许多课程学习方法按实例排序难度，使用启发式方法，如句子长度。这是对transformer前训练的改进（Press等人，2021年；阿格拉瓦尔等人，2021年）以及对问题回答的微调（Tay等人，2019）、MT（Zhang等人2019）、和其他人（Xu et al.，2020）。课程学习中的一个主要挑战是终止的速度，即何时发展到更多不同的实例。如果没有仔细选择，课程设置学习会在“简单”实例上浪费计算。为了解决这一问题，我们研究了基于当前模型状态的自适应顺序策略自定节奏的学习（Kumar等人，2010年）。这是一个问题已成功地应用于提高性能。

2.4 评价数据质量

在一个数据集越来越大的时代，审查和评价数据质量的时间越来越长。数据集经常呈现高水平关于噪音和排列失调的实例(Kreutzer等人，2022). 估计数据质量包括重复搜索努力，提出更好的不确定性和时间(Baldock等人，2021；D‘souza等人，2021；Ethayarajh等人，2022年)以及分析工具如数据集制图(Swayamdipta等，2020).定性工具包括文档数据集和模型属性（Gebru等人，2021年）。

3 模型设计

有效的模型设计包含模型架构修改，增加新的模块加速训练。

3.1 改进transformer注意力

自注意机制有一个对序列长度的二次依赖性是没有被现有的模型充分利用(Hassid等人，2022).为了降低计算成本，对长序列的保留机制已经很有效提出的建议（Tay等人，2022年）。现有的策略

包括更好地使用已经处理过的段通过递归来连接多个线段(Dai

等人，2019年)，学习一个网络来压缩长期记忆（Rae et al.，2020），分别建模全局和本地的关注(Ainslie等人，，并将长输入建模为一个连续的时间信号（Martins等人，2022b）。的另一行研究使用固定的注意力模式，其中的词元关注他们的直接环境（当地注）

并可能是一些全局位置(全局在保留；贝尔塔吉等人，2020年；Zaheer等人，2020年；Child等人，2019年)。与使用完整的自注意矩阵相比，这些方法可以进行线性缩放输入长度。

一些方法是学习注意力稀疏性模式直接从数据中获取标记，例如，通过将标记分组到桶，导致更准确、更精确的全注意矩阵

(Kitaev等人，2020年；Daras等人，2020年；罗伊等人。2021).而不是寻求更好的注意力模式，一些策略改变了注意机制并通过核的反向应用，推导出查询键矩阵的低秩近似技巧，导致线性时间注意(卡塔罗普·los等人，2020年；乔罗曼斯基等人，2021年；彭等人，2020年；Zhai等人，2021年)。最近，io-意识到了注意机制已经被提出，减少GPU注意矩阵的读写高带宽存储器（Dao等人，2022b）。尽管注意力有了各种改善机制，他们中的大多数都在非常挣扎长序列（Tay等人，2021年）。S4 (Gu等人，及其继任者(Gupta et al.，2022；Mehta等人，2023年；Gu等人，2022a)，建议一个替代了transformer，减轻了短时间内存问题和二次瓶颈离散状态空间的自注意代价通过参数化来实现的表示状态矩阵最近，Mega（Ma et al.，2023）更换了多头transformer的注意力具有单头机制的机制从一个多重敏感指数移动平均模块接收上下文化的向量，然后将输入分割成多个固定长度的输入分块，以降低计算成本。两个S4

而Mega的表现也明显优于基于注意力的表现对远程竞技场的所有任务的方法基准测试（Tay等人，2021年），同时增加训练速度约5倍内存成本约为15%标准transformer，这一成功要归功于它们的卷积结构，这是要强调的附近的令