【论文阅读】Model-Switching: Dealing with Fluctuating Workloads in Machine-Learning-asa Service Systems
基于机器学习(ML)的预测模型,尤其是深度神经网络(DNN),越来越多地在云中提供,以提供快速准确的推理。然而,现有的服务ML服务系统在处理波动的工作负载方面存在问题,要么放弃请求,要么在响应负载峰值时显著扩展硬件资源。在本文中,我们介绍了模型切换,这是一种处理DNN模型波动工作负载的新方法。由于观察到ML的最终用户主要关心在截止日期内返回的响应的准确性(我们称之为有效精度),我们建议在负载峰值存在的情况下,从复杂和高度精确的DNN模型切换到更简单但不太准确的模型。Clipper。
原创
2024-07-16 10:45:56 ·
487 阅读 ·
0 评论