高效大语言模型：综述

硅谷秋水

于 2024-05-23 09:17:50 发布

阅读量939

点赞数 14

分类专栏：大模型人工智能文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/yorkhunter/article/details/139134911

版权

大模型同时被 2 个专栏收录

323 篇文章 1 订阅

订阅专栏

人工智能

169 篇文章 0 订阅

订阅专栏

23年12月来自Ohio State、英国伦敦帝国学院、Michigan State、AWS、谷歌、Boston AI、微软、Michigan大学等的论文“Efficient Large Language Models: A Survey“。

大语言模型（LLM）在自然语言理解、语言生成和复杂推理等重要任务中表现出了非凡的能力，并有可能对社会产生重大影响。然而，这种能力伴随着它们所需的大量资源，突出表明迫切需要开发有效的技术来应对其效率挑战。这个综述对高效的LLM研究进行了系统而全面的回顾。将文献分类在三个主要类别，分别从以模型为中心、以数据为中心和以框架为中心的角度涵盖了高效LLM的主题。

定义的三个类别具体如下：
•以模型为中心的方法：以模型为中心的方法侧重于算法级和系统级的高效技术，其中模型本身是焦点。LLM具有数十亿甚至数万亿的参数，与较小规模的模型相比，LLM表现出不同的特征[299]，这就需要开发新技术。高效技术涵盖了与模型压缩、高效预训练、高效微调、高效推理和高效架构设计相关的研究方向。
•以数据为中心的方法：在LLM领域，数据的重要性与模型本身的重要性一样。以数据为中心的方法侧重于数据质量和结构在提高LLM效率方面的作用。高效的技术涵盖了与数据选择和提示工程相关的研究方向。
•LLM框架：LLM的出现要求开发专门的框架，有效地处理其训练、推理和服务。虽然TensorFlow、PyTorch和JAX等主流人工智能框架提供了基础，但它们缺乏对LLM关键的特定优化和功能的内置支持。高效LLM设计的现有框架，包括独特功能、底层库和专业化。

如图分类概述：

添加图片注释，不超过 140 字（可选）

模型为中心的方法

模型压缩总结如下，包括：量化quantization, 参数剪枝parameter pruning, 低秩近似low-rank approximation, 和知识蒸馏knowledge distillation。

添加图片注释，不超过 140 字（可选）

模型压缩技术示意图如下图所示：

添加图片注释，不超过 140 字（可选）

量化方法包括：训练后量化（PTQ）、量化-觉察训练（QAT）和量化-觉察微调（QAFT）。

高效的预训练技术可以分为四类：混合精度加速、缩放模型、初始化技术和优化策略。总结如下：

添加图片注释，不超过 140 字（可选）

高效预训练方法概览图如下：

添加图片注释，不超过 140 字（可选）

高效的微调方法可以分为参数高效微调（PEFT）和存储高效微调（MEFT）。总结如下：

添加图片注释，不超过 140 字（可选）

高效微调方法概览如图：参数高效微调分成自适应器微调、低秩自适应、前缀微调和提示微调。

添加图片注释，不超过 140 字（可选）

高效推理技术可以分为算法级和系统级的加速技术。总结如下：

添加图片注释，不超过 140 字（可选）

算法级加速方法细分为推测解码、KV缓存优化和基于共享的注意加速。算法级高效推理方法概览如下：

添加图片注释，不超过 140 字（可选）

高效架构的LLM设计是指对模型结构和计算过程进行战略性优化，提高性能和可扩展性，同时最大限度地减少资源消耗。如图总结：

添加图片注释，不超过 140 字（可选）

注意机制优化的概览图如下：特征信息减少、核心化或者低秩、固定模式策略、学习的模式策略和硬件辅助的注意。

添加图片注释，不超过 140 字（可选）

专家混合和长上下文的LLMs概览如下：

添加图片注释，不超过 140 字（可选）
Transformer替代的方法还有：状态空间法SSM，Mamba刚刚提出不久。

数据为中心的方法

如图总结了用于高效预训练和微调的最新数据选择技术：

添加图片注释，不超过 140 字（可选）

LLM数据选择的概览图如下：

添加图片注释，不超过 140 字（可选）

提示工程[167]是设计有效的输入（提示），指导LLM生成所需的输出。这对LLM至关重要，因为提示工程可以为专门任务定制LLM，而不需要大量标记数据。高效的技术使这些模型能够以较少的计算开销准确地处理信息和响应。与基于提示的语言模型相关的计算成本一直是正在进行的研究的主题，特别是在特定任务应用的背景下。如图所示，提示工程技术可以分为少样本提示、提示压缩和提示生成。

添加图片注释，不超过 140 字（可选）

少样本提示分为演示选择、演示排序、指令生成和多步推理。概览如图：

添加图片注释，不超过 140 字（可选）

LLM框架

如下表是LLM框架比较：包括同时支持训练和推理的框架，和只支持推理的框架。

添加图片注释，不超过 140 字（可选）

硅谷秋水

关注

14
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
高效大语言模型：综述

23年12月来自Ohio State、英国伦敦帝国学院、Michigan State、AWS、谷歌、Boston AI、微软、Michigan大学等的论文“Efficient Large Language Models: A Survey“。
复制链接

扫一扫