深度学习
文章平均质量分 96
Mr.Lee jack
这个作者很懒,什么都没留下…
展开
-
【CUDA编程--编程模型简介&算子开发流程】
CUDA全称(Compute Unified Device Architecture)统一计算架构,是NVIDIA推出的并行计算平台深度学习加速:对于神经网络,无论是离线训练还是在线推理,都有巨量的矩阵、归一化、softmax等运算,且其中有非常多的并行计算,非常适合用GPU来进行运算加速一般来说,应用程序混合有并行部分和顺序部分,因此系统设计时混合使用 GPU 和 CPU,以最大限度地提高整体性能。具有高度并行性的应用程序可以利用 GPU 的大规模并行特性来实现比 CPU 更高的性能。原创 2023-11-13 20:23:54 · 3511 阅读 · 1 评论 -
大语言模型的百家齐放
大模型百家齐放及历史演进原创 2023-07-02 14:23:22 · 2019 阅读 · 0 评论 -
Triton Server 快速入门
Triton提供了一个叫做instance-group的模型配置项,允许指定每一个模型允许的并发实例的数量,这些并发的模型数量称之为一个instance。默认情况下,Triton是一个GPU上放一个模型,一次只推理一份数据。但通过设置模型的instance_group参数,可以对模型的并发实例数据量进行扩充。2.–model-control-mode=poll该参数用于启动模型热更新,当模型文件发生变化,或者新增版本时,程序先启动新的实例版本出来,在将旧版本或者实例卸载掉。原创 2023-04-04 11:53:13 · 2943 阅读 · 0 评论