大模型
文章平均质量分 87
AI小匠
专业大模型服务私信联系
展开
-
prompt提示词调优工具介绍-promptfoo
promptfoo是一款开源的prompt调优工具,今天我们来介绍如何使用promptfoo来调试百度千帆大模型。原创 2024-09-05 15:44:26 · 723 阅读 · 0 评论 -
如何实现大模型流式请求+打字机效果
大模型推理是一个消耗大量计算资源,耗时较长的一个过程,在实际业务中让大模型写一篇小作文,经常要十几秒。为了降低终端用户体感等待的时长,大家都会开启流式,让大模型生成一部分内容后,就展示出来,从而提升客户的体验。想必大家也体验过各种各样的大模型对话应用,界面中大模型生成的内容都是一个字一个字往外蹦,效果就像"打字机"一样。这篇文章就是教会大家,如何快速实现这样一个"打字机"效果,不光可以体验实际效果,还附送前后端示例代码。python:基于fastapi发布路由,使用uvicorn创建HTTP服务。原创 2024-04-23 17:39:13 · 1017 阅读 · 0 评论 -
“三板斧“解决大模型推理“慢“问题
要想理解和解决大模型服务推理“慢”的问题,首先要知道大模型的推理结果是怎么产生的。由上图可知,推理过程是不断地根据上文(robot must obey)来猜测下文最可能出现的token(orders),最后拼接而成。如果需要输出更长的结果,那么就需要不断地去根据上文推理下一个token,直到结束。所以影响大模型推理“慢”的主要原因是不同模型推理速度和输出长度。原创 2024-04-23 17:34:34 · 3050 阅读 · 0 评论