大模型场景实战培训,提示词效果调优,大模型应用定制开发,点击咨询
咨询热线:400-920-8999转2
一、前言
要想理解和解决大模型服务推理“慢”的问题,首先要知道大模型的推理结果是怎么产生的。
由上图可知,推理过程是不断地根据上文(robot must obey)来猜测下文最可能出现的token(orders),最后拼接而成。如果需要输出更长的结果,那么就需要不断地去根据上文推理下一个token,直到结束。所以影响大模型推理“慢”的主要原因是不同模型推理速度和输出长度。
总体来说,解决大模型推理“慢”大致有三种常见方案,您可以根据实际业务场景和工程需要来选择:
-
流式请求 (快速获得结果的头部部分tokens,尽快使用/展示,缓解长时间等待的焦虑)
-
切换模型 (不同模型推理速度不同,可以合理选择不同效果、速度的模型)
-
约束输出内容长度 (输出长度和推理时间成正比,合理有效的减少输出长度可以减少等待时间)
二、解决方案
流式请求
非流式请求与流式请求的差异
非流式请求
- 阻塞式等待服务端返回数据
- 所有推理结果一次性返回
- 适用场景:需要对结果进行固定格式解析、其他对完整性结果有要求
- 入参:stream: false(默认)
- 出参:
{
"id": "as-fg4g836x8n",
"object": "chat.completion",
"created": 1709716601,
"result": "北京,简称“京”,古称燕京、北平,中华民族的发祥地之一,是中华人民共和国首都、直辖市、国家中心城市、超大城市,也是国务院批复确定的中国政治中心、文化中心、国际交往中心、科技创新中心,中国历史文化名城和古都之一,世界一线城市。\\n\\n北京被世界城市研究机构评为世界一线城市,联合国报告指出北京市人类发展指数居中国城市第二位。北京市成功举办夏奥会与冬奥会,成为全世界第一个“双奥之城”。北京有着3000余年的建城史和850余年的建都史,是全球拥有世界遗产(7处)最多的城市。\\n\\n北京是一个充满活力和创新精神的城市,也是中国传统文化与现代文明的交汇点。在这里,你可以看到古老的四合院、传统的胡同、雄伟的长城和现代化的高楼大厦交相辉映。此外,北京还拥有丰富的美食文化,如烤鸭、炸酱面等,以及各种传统艺术表演,如京剧、相声等。\\n\\n总的来说,北京是一个充满魅力和活力的城市,无论你是历史爱好者、美食家还是现代都市人,都能在这里找到属于自己的乐趣和归属感。",
"is_truncated": false,
"need_clear_history": false,
"finish_reason": "normal",
"usage":
{
"prompt_tokens": 2,
"completion_tokens": 221,
"total_tokens