人工智能咨询培训老师叶梓 转载标明出处
随着模型规模的不断扩大,如GPT-4这样的模型拥有约1.7万亿参数,其预训练所需的巨大能源和计算资源引发了对可持续发展AI解决方案的迫切需求。麦吉尔大学的研究团队介绍了一种创新的方法来解决与LLMs预训练相关的效率问题,即通过知识蒸馏实现跨架构的知识转移。研究团队提出了一种名为Hyena的机制,该机制通过替代变换器模型中的注意力头,提供了一种成本效益更高的替代传统预训练的方法。与传统的压缩方法不同,该技术不仅提高了推理速度,而且在准确性和效率方面都超越了预训练。
方法
Hyena算子是本文的核心创新之一,由Poli等人在2023年提出。它旨在作为次线性(subquadratic)替代方案,以替换变换器中的注意力(attention)操作。与H3等其他状态空间模型不同,Hyena直接对滤波器进行参数化,这相当于线性时不变(LTI)系统的脉冲响应。
具体来说,Hyena算子首先对时间索引应用位置嵌入,其中df是嵌入维度。然后,通过前馈神经网络(FFN):
,其中dm是模型的维度,并将结果乘以一个窗口函数以获得滤波器h[n]。数学表达式为:
Hyena算子使用这样的滤波器ℎh来聚合长上下文窗口的上下文,并通过对乘法门控机制引入非线性。首先通过投影操作P(x,θ)获得三个投影q,k,v,该操作由参数θ控制。投影操作包括一个线性投影