通用大模型推理研究：SGLang推理框架

Eric An

已于 2024-10-25 08:34:42 修改

阅读量2.6k

点赞数 3

文章标签：语言模型人工智能自然语言处理

于 2024-07-30 17:05:22 首次发布

本文链接：https://blog.csdn.net/yunxinan/article/details/140801267

版权

SGLang: Efficient Execution of Structured Language Model Programs，由斯坦福大学、加州大学伯克利分校、上海交通大学、德克萨斯大学完成。

使用SGLang实现了各种LLM应用程序，包括代理控制、逻辑推理、少样本学习基准测试、JSON解码、检索增强的生成管道、多轮聊天和多模态处理。
在包括Llama7B/70B、Mistral-8x7B、LLaVA-v1.5-7B（图像）和LLaVA-NeXT-34B（视频）在内的模型上进行了性能测试，使用了NVIDIA A10G和A100 GPU。
实验结果显示，SGLang在各种工作负载、模型和硬件设置上，与现有的编程和推理系统（如Guidance、vLLM和LMQL）相比，实现了高达6.4倍的吞吐量提升。

SGLang是一个有价值的工具，用于开发高级提示技术和代理工作流程，通过RadixAttention、压缩有限状态机和语言解释器等新颖优化显著提高了复杂语言模型程序的吞吐量和延迟。
论文还讨论了SGLang的未来发展方向，包括扩展支持更多输出模态、适应多个存储层次结构的RadixAttention、在RadixAttention中提供模糊语义匹配等。结论强调了SGLang作为一个框架的价值，并指出了其在提高大型语言模型程序执行效率方面的潜力。
论文得到了斯坦福自动化推理中心以及来自Astronomer、Google、IBM、Intel、Lacework、Microsoft、Mohamed Bin Zayed University of Artificial Intelligence、Nexla、Samsung SDS、Uber和VMware的支持。通过提出SGLang，展示了一种新的方法来提高大型语言模型程序的执行效率，这对于开发复杂的语言模型应用程序具有重要意义。

在这里插入图片描述