文章目录
- 一、高性能小模型
- 二、优化方案与热门应用
-
- 2.1 Orca 2: Teaching Small Language Models How to Reason
- 2.2 It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
- 2.3 FINETUNED LANGUAGE MODELSARE ZERO-SHOT LEARNERS
- 2.4 Transcending Scaling Laws with 0.1% Extra Compute
- 2.5 Scaling Instruction-Finetuned Language Models
- 2.6 LLaVA-ϕ: Efficient Multi-Modal Assistant with Small Language Model
- 2.7 TinyGSM: achieving > 80% on GSM8k with small language models
- 2.8 Length-Adaptive Distillation: Customizing Small Language Model for Dynamic Token Pruning
- 三、大模型结合小模型
这里的小模型指的小型语言模型(Small Language Model,简称SLM),通常用于解决资源受限或实时性要求较高的场景,比如一些边缘设备(智能手机、物联网设备和嵌入式系统等),大模型难以运行其上。
目前我们对大模型的探索已经到了瓶颈,因高能耗、巨大的内存需求和昂贵的计算成本,我们的技术创新工作受到了挑战与限制。而对比大模型,小模型耗资少、响应快、可移植性强、泛化能力高…在一些特定情况下,可以提供更高效、更灵活的选择。因此,更多人开始着眼于小巧且兼具高性能的小模型相关的研究。
一、高性能小模型
1.1 TinyLlama-1.1B
论文:TinyLlama: An Open-Source Small Language Model
一个开源的小型语言模型
「模型简介:」本文介绍了TinyLlama小型语言模型,该模型在大约1万亿个标记上进行了约3个周期的预训练,具有紧凑的1.1B参数规模。TinyLlama基于Llama 2(Touvron等人,2023b)的架构和分词器构建,利用了开源社区贡献的各种先进技术(例如FlashAttention(Dao,2023)),实现了更好的计算效率。尽管其规模相对较小,但TinyLlama在一系列下游任务中表现出色,显著优于现有规模相当的开源语言模型。
1.2 LiteLlama
「模型简介:」SLM-LiteLlama是对 Meta AI 的 LLaMa 2 的开源复刻版本,但模型规模显著缩小。它有 460M 参数,由 1T token 进行训练。LiteLlama-460M-1T 在RedPajama数据集上进行训练,并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估,结果证明,在参数量大幅减少的情况下,LiteLlama-460M-1T 仍能取得与其他模型相媲美或更好的成绩。
1.3 Phi-1、Phi-1.5、Phi-2
论文:Textbooks Are All You Need II: phi-1.5 technical report
phi -1.5技术报告
「模型简介:」本文继续研究基于Transformer的小型语言模型的能力。之前的工作包括一个1000万参数的模型,可以产生连贯的英语,以及一个13亿参数的模型,其Python编程性能接近最先进水平。作者采用了“Textbooks Are All You Need”的方法,专注于自然语言中的常识推理,并创建了一个新的13亿参数模型,名为phi-1.5。该模型在自然语言任务上的性能与大5倍的模型相当,在更复杂的推理任务上超越了大多数非前沿的大型语言模型。
1.4 RoBERTa
论文:RoBERTa: A Robustly Optimized BERT Pretraining Approach
一种鲁棒优化的BERT预训练方法
「模型简介:」本文介绍了BERT预训练的复制研究,仔细测量了许多关键超参数和训练数据大小的影响。作者发现BERT的训练不足,并且可以匹配或超过所有在其之后发布的模型的性能。作者的最佳模型在GLUE、RACE和SQuAD上取得了最先进的结果。这些结果强调了以前被忽视的