【小模型】2024属于小模型!高性能SLM最新优化方案和热门应用分享,附配套模型

本文探讨了高性能的小型语言模型,如TinyLlama、LiteLlama和Phi-1.5,它们在资源有限的设备上表现出色。研究还涵盖了优化方案,如教小型模型推理的Orca2,以及大模型与小模型的结合,如SuperICL和emulatedfine-tuning。文章强调了小模型在节能、响应速度和灵活性上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


这里的小模型指的小型语言模型(Small Language Model,简称SLM),通常用于解决资源受限或实时性要求较高的场景,比如一些边缘设备(智能手机、物联网设备和嵌入式系统等),大模型难以运行其上。

目前我们对大模型的探索已经到了瓶颈,因高能耗、巨大的内存需求和昂贵的计算成本,我们的技术创新工作受到了挑战与限制。而对比大模型,小模型耗资少、响应快、可移植性强、泛化能力高…在一些特定情况下,可以提供更高效、更灵活的选择。因此,更多人开始着眼于小巧且兼具高性能的小模型相关的研究。

一、高性能小模型

1.1 TinyLlama-1.1B

论文:TinyLlama: An Open-Source Small Language Model

一个开源的小型语言模型

「模型简介:」本文介绍了TinyLlama小型语言模型,该模型在大约1万亿个标记上进行了约3个周期的预训练,具有紧凑的1.1B参数规模。TinyLlama基于Llama 2(Touvron等人,2023b)的架构和分词器构建,利用了开源社区贡献的各种先进技术(例如FlashAttention(Dao,2023)),实现了更好的计算效率。尽管其规模相对较小,但TinyLlama在一系列下游任务中表现出色,显著优于现有规模相当的开源语言模型。

在这里插入图片描述

1.2 LiteLlama

「模型简介:」SLM-LiteLlama是对 Meta AI 的 LLaMa 2 的开源复刻版本,但模型规模显著缩小。它有 460M 参数,由 1T token 进行训练。LiteLlama-460M-1T 在RedPajama数据集上进行训练,并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估,结果证明,在参数量大幅减少的情况下,LiteLlama-460M-1T 仍能取得与其他模型相媲美或更好的成绩。

在这里插入图片描述

1.3 Phi-1、Phi-1.5、Phi-2

论文:Textbooks Are All You Need II: phi-1.5 technical report

phi -1.5技术报告

「模型简介:」本文继续研究基于Transformer的小型语言模型的能力。之前的工作包括一个1000万参数的模型,可以产生连贯的英语,以及一个13亿参数的模型,其Python编程性能接近最先进水平。作者采用了“Textbooks Are All You Need”的方法,专注于自然语言中的常识推理,并创建了一个新的13亿参数模型,名为phi-1.5。该模型在自然语言任务上的性能与大5倍的模型相当,在更复杂的推理任务上超越了大多数非前沿的大型语言模型。

在这里插入图片描述

1.4 RoBERTa

论文:RoBERTa: A Robustly Optimized BERT Pretraining Approach

一种鲁棒优化的BERT预训练方法

「模型简介:」本文介绍了BERT预训练的复制研究,仔细测量了许多关键超参数和训练数据大小的影响。作者发现BERT的训练不足,并且可以匹配或超过所有在其之后发布的模型的性能。作者的最佳模型在GLUE、RACE和SQuAD上取得了最先进的结果。这些结果强调了以前被忽视的

### ORCA 数据库查询优化器概述 ORCA 是一种先进的查询优化器,最初由 Pivotal 开发并开源,其设计基于 Cascades 框架[^2]。作为一种通用的查询优化框架,Cascades 提供了一种灵活的方式来生成评估多种可能的查询执行计划。ORCA 利用了这一框架的优势,成为了一个独立于数据库主体的模块化组件,可以服务于多个不同的数据库产品[^3]。 #### GPORCA 在 Greenplum 中的应用 GPORCA 是 Greenplum 数据库中的高级查询优化器,专门针对大规模并行处理 (MPP) 场景进行了优化。它的主要功能包括但不限于以下几个方面: - **基于代价的优化**:通过分析查询语句及其涉及的数据分布特性,GPORCA 能够选择最优的物理执行计划[^1]。 - **多阶段查询处理**:支持复杂的 SQL 查询分解成多个子任务,并在分布式环境中高效协调这些任务的执行。 - **并行执行与分布式数据优化**:利用 Greenplum 的 MPP 架构优势,GPORCA 可以自动调整查询计划以最大化硬件资源利用率。 此外,GPORCA 还具备自适应优化的能力,能够在面对动态变化的工作负载时保持高效的性能表现。 #### 编译安装过程 对于希望自行编译带有 ORCA 优化器的 Greenplum 版本的开发者来说,需要注意版本匹配问题。通常推荐的做法是从官方仓库克隆指定分支的源码,并按照以下步骤完成配置编译工作: ```bash git clone https://github.com/greenplum-db/gpdb.git --branch 6X_STABLE --single-branch --depth 1 -b 6X_STABLE 6X_STABLE cd 6X_STABLE/depends CFLAGS="-L/usr/local/gpdb/lib/" ./configure --prefix=/usr/local/gpdb make make install_local ``` 上述命令展示了如何获取最新稳定版的 Greenplum 对应的 ORCA 组件,并将其部署到本地环境[^4]。 #### 查询优化的核心机制 在实际应用过程中,ORCA 需要解决的一个重要问题是确保最终生成的查询计划满足父节点所要求的各种属性条件。如果某个子计划无法直接提供所需的属性,则会在该位置插入额外的操作符(称为 enforcer)。例如,当上层操作符期望输入已排序的数据流时,而当前子树并未自然地维持这种顺序关系,则需引入显式的 `Sort` 步骤来强制达成目标[^5]。 另外值得一提的是,为了加速重复查询场景下的响应时间,ORCA 实现了元数据缓存机制,从而减少了每次重新规划所需的时间开销。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旅途中的宽~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值