在深度学习推理场景中,计算图优化是突破硬件算力瓶颈的核心技术。
一、计算图优化的数学建模与性能分析
1. 计算图的时间-空间代价模型
(1) 时间代价分解
假设计算图包含 N N N个算子,每个算子 O i O_i Oi的时间代价可分解为:
T i = T compute ( i ) + T memory ( i ) + T sync ( i ) T_i = T_{\text{compute}}^{(i)} + T_{\text{memory}}^{(i)} + T_{\text{sync}}^{(i)} Ti=Tcompute(i)+Tmemory(i)+Tsync(i)
- 计算时间:与算子FLOPs正相关,例如卷积层的时间模型为:
T conv = C in × C out × K h × K w × H out × W out Throughput hardware T_{\text{conv}} = \frac{C_{\text{in}} \times C_{\text{out}} \times K_h \times K_w \times H_{\text{out}} \times W_{\text{out}}}{\text{Throughput}_{\text{hardware}}} Tconv=ThroughputhardwareCin×Cout×Kh×Kw×Hout×Wout - 内存传输时间:受带宽限制,例如张量传输时间:
T memory = Tensor Size (Bytes) Memory Bandwidth T_{\text{memory}} = \frac{\text{Tensor Size (Bytes)}}{\text{Memory Bandwidth}} T