“三板斧“解决大模型推理“慢“问题

大模型场景实战培训,提示词效果调优,大模型应用定制开发,点击咨询
咨询热线:400-920-8999转2

一、前言

要想理解和解决大模型服务推理“慢”的问题,首先要知道大模型的推理结果是怎么产生的。

Image 1: a diagram of a neural network and a transformer decoder

由上图可知,推理过程是不断地根据上文(robot must obey)来猜测下文最可能出现的token(orders),最后拼接而成。如果需要输出更长的结果,那么就需要不断地去根据上文推理下一个token,直到结束。所以影响大模型推理“慢”的主要原因是不同模型推理速度和输出长度

总体来说,解决大模型推理“慢”大致有三种常见方案,您可以根据实际业务场景和工程需要来选择:

  1. 流式请求 (快速获得结果的头部部分tokens,尽快使用/展示,缓解长时间等待的焦虑)

  2. 切换模型 (不同模型推理速度不同,可以合理选择不同效果、速度的模型)

  3. 约束输出内容长度 (输出长度和推理时间成正比,合理有效的减少输出长度可以减少等待时间)

二、解决方案

流式请求

非流式请求与流式请求的差异

非流式请求
  • 阻塞式等待服务端返回数据
  • 所有推理结果一次性返回
  • 适用场景:需要对结果进行固定格式解析、其他对完整性结果有要求
  • 入参:stream: false(默认)
  • 出参:
{
   
    "id": "as-fg4g836x8n",
    "object": "chat.completion",
    "created": 1709716601,
    "result": "北京,简称“京”,古称燕京、北平,中华民族的发祥地之一,是中华人民共和国首都、直辖市、国家中心城市、超大城市,也是国务院批复确定的中国政治中心、文化中心、国际交往中心、科技创新中心,中国历史文化名城和古都之一,世界一线城市。\\n\\n北京被世界城市研究机构评为世界一线城市,联合国报告指出北京市人类发展指数居中国城市第二位。北京市成功举办夏奥会与冬奥会,成为全世界第一个“双奥之城”。北京有着3000余年的建城史和850余年的建都史,是全球拥有世界遗产(7处)最多的城市。\\n\\n北京是一个充满活力和创新精神的城市,也是中国传统文化与现代文明的交汇点。在这里,你可以看到古老的四合院、传统的胡同、雄伟的长城和现代化的高楼大厦交相辉映。此外,北京还拥有丰富的美食文化,如烤鸭、炸酱面等,以及各种传统艺术表演,如京剧、相声等。\\n\\n总的来说,北京是一个充满魅力和活力的城市,无论你是历史爱好者、美食家还是现代都市人,都能在这里找到属于自己的乐趣和归属感。",
    "is_truncated": false,
    "need_clear_history": false,
    "finish_reason": "normal",
    "usage":
    {
   
        "prompt_tokens": 2,
        "completion_tokens": 221,
        "total_tokens
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值