[编译器]-3 TVM分层设计

行置水穷处

于 2024-05-19 20:17:51 发布

阅读量976

点赞数 13

文章标签：人工智能

本文链接：https://blog.csdn.net/wendywm0496/article/details/139047675

版权

TVM（Tensor Virtual Machine）是一个开源的端到端深度学习编译器堆栈，旨在优化和生成针对各种硬件平台的高性能机器学习模型代码。TVM的系统分层设计可以分为以下几个关键部分：图优化、算子计算和调度、自动调优框架、代码生成和运行时支持：

1. 图优化（Graph Optimization）

图优化是TVM编译流程的第一个阶段，它对模型的计算图进行高层次优化，这一阶段的目标是通过各种优化技术，简化计算图并提高性能。可以分为三类优化方法：

1）算子级优化

算子融合

算子融合是将多个算子合并成一个算子，以减少内存访问和计算开销。

例如，卷积和激活函数的融合

# 原始计算图

def original_network(data, weight, bias):

conv = relay.nn.conv2d(data, weight)

bias_add = relay.nn.bias_add(conv, bias)

relu = relay.nn.relu(bias_add)

return relu

# 优化后的计算图

def fused_network(data, weight, bias):

fused_conv_relu = relay.nn.conv2d_relu(data, weight, bias)

return fused_conv_relu

常量折叠

常量折叠是在编译时计算常量表达式，减少运行时的计算量。

例如，对常量张量的加法操作进行优化

# 原始计算图

def original_network(data):

const = relay.const(np.array([1, 2, 3, 4]))

add = relay.add(data, const)

return add

# 优化后的计算图

def optimized_network(data):

const = relay.const(np.array([2, 3, 4, 5]))

return data + const

2）子图优化

内存优化

优化子图的内存布局和内存复用策略，减少内存使用和数据传输。

# 原始计算图

def original_network(data):

conv1 = relay.nn.conv2d(data, weight1)

conv2 = relay.nn.conv2d(conv1, weight2)

return conv2

# 内存优化后的计算图

# 通过对conv1的输出内存进行复用，减少内存使用

精度转换

通过混合精度训练和推理，将部分算子转换为低精度（如FP16、INT8），以加速计算。

# 原始计算图

def original_network(data, weight):

conv = relay.nn.conv2d(data, weight)

return conv

# 精度转换后的计算图

def optimized_network(data, weight):

data_fp16 = relay.cast(data, "float16")

weight_fp16 = relay.cast(weight, "float16")

conv = relay.nn.conv2d(data_fp16, weight_fp16)

return relay.cast(conv, "float32")

3）全局优化

冗余消除: 消除计算图中的冗余节点和不必要的计算。

依赖分析和调度优化: 分析计算图中的数据依赖关系，重新调度计算顺序以提高并行度和缓存命中率。

举例说明如下：

# 原始计算图

# 导入必要的库

from tvm import relay

import numpy as np

# 定义ResNet-18的计算图

def resnet18(data):

# 定义卷积层和其他层

conv1 = relay.nn.conv2d(data, weight1)

bn1 = relay.nn.batch_norm(conv1)

relu1 = relay.nn.relu(bn1)

pool1 = relay.nn.max_pool2d(relu1)

# 其他层定义...

return pool1

# 使用TVM的优化通道对计算图进行优化

def optimized_resnet18(data):

# 定义优化后的计算图

fused_conv_bn_relu = relay.nn.conv2d_bn_relu(data, weight1, bias1, bn_scale1, bn_offset1)

pool1 = relay.nn.max_pool2d(fused_conv_bn_relu)

# 其他优化层定义...

return pool1

2. 算子计算和调度（Operator Computation and Scheduling）

算子计算和调度是优化模型执行性能的关键环节，目的是生成高效的目标硬件代码，通过优化计算顺序、数据访问模式和并行度，充分利用硬件资源，这一阶段核心是将计算和调度分开，涉及将高层次的优化图转换为针对具体硬件的高效计算代码。TVM提供了一个灵活的算子库，支持各种张量操作，开发者可以根据需要自定义算子。

1）循环优化

循环优化包括循环展开、循环重排和循环分块，以提高缓存命中率和并行度。

# 定义计算

A = te.placeholder((1024, 1024), name='A')

B = te.placeholder((1024, 1024), name='B')

k = te.reduce_axis((0, 1024), name='k')

C = te.compute((1024, 1024), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name='C')

# 创建调度

s = te.create_schedule(C.op)

# 循环展开

i, j = s[C].op.axis

s[C].unroll(i)

s[C].unroll(j)

2）数据布局优化

用以改变数据在内存中的布局以优化访问模式。

# 定义计算

A = te.placeholder((1024, 1024), name='A')

B = te.placeholder((1024, 1024), name='B')

k = te.reduce_axis((0, 1024), name='k')

C = te.compute((1024, 1024), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name='C')

# 创建调度

s = te.create_schedule(C.op)

# 数据布局优化

AA = s.cache_read(A, "shared", [C])

BB = s.cache_read(B, "shared", [C])

CC = s.cache_write(C, "local")

3）并行化

利用多核CPU和GPU的并行计算能力，包括数据并行、任务并行和流水线并行。

# 定义计算

A = te.placeholder((1024, 1024), name='A')

B = te.placeholder((1024, 1024), name='B')

k = te.reduce_axis((0, 1024), name='k')

C = te.compute((1024, 1024), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name='C')

# 创建调度

s = te.create_schedule(C.op)

# 并行化

i, j = s[C].op.axis

s[C].parallel(i)

s[C].parallel(j)

4）硬件Intrinsic映射

硬件Intrinsic是指在编译过程中将高级编程语言中的操作映射到硬件特定的指令或功能。例如，某些硬件平台（如GPU、DSP）提供专门的指令集，用于加速特定类型的计算，如矩阵乘法、向量运算等。Intrinsic映射的过程就是将通用的计算操作转换为这些硬件特定的指令，以提高执行效率。

主要包括：向量化（将标量操作转换为向量操作，利用硬件提供的向量指令集进行并行计算）、特殊函数（使用硬件提供的特殊数学函数指令，如快速傅里叶变换（FFT）、三角函数、指数函数等）、内存操作优化（使用硬件特定的内存操作指令，如缓存预取（cache prefetch）、非对齐内存访问等）。

以矩阵乘法（GEMM）为例，展示硬件Intrinsic映射的具体过程：（矩阵乘法的内循环被映射到一个假设的硬件矩阵乘法加速器（gemm_accelerator）上，通过这种映射，可以显著提高矩阵乘法的执行效率）

import tvm

from tvm import te

# 定义矩阵乘法计算

N = 1024

A = te.placeholder((N, N), name='A')

B = te.placeholder((N, N), name='B')

k = te.reduce_axis((0, N), name='k')

C = te.compute((N, N), lambda i, j: te.sum(A[i, k] * B[k, j], axis=k), name='C')

# 创建调度

s = te.create_schedule(C.op)

# 硬件Intrinsic映射：使用矩阵乘法加速器

i, j = s[C].op.axis

i_outer, i_inner = s[C].split(i, factor=32)

j_outer, j_inner = s[C].split(j, factor=32)

s[C].reorder(i_outer, j_outer, i_inner, j_inner)

# 映射到硬件Intrinsic

s[C].tensorize(i_inner, tvm.tir.call_pure_intrin('gemm_accelerator'))

# 生成目标代码

target = 'llvm'

func = tvm.build(s, [A, B, C], target=target, name='gemm')

print(func.get_source())

3. 自动调优框架（Auto-Tuning Framework）

自动调优是TVM的一大特色，能够自动化地搜索和优化模型超参数、架构或其他与性能相关的配置的工具，这些框架通常结合了优化算法和分布式计算，以在大规模的搜索空间中高效地找到最佳的配置。AutoTVM：TVM的自动调优模块，可以通过生成大量不同的调度配置并在目标硬件上运行来评估其性能，最终选择最优配置。Ansor：一个更高级的自动调优器，通过基于代价模型的搜索策略，更加高效地探索算子调度空间。

自动调优框架的实现通常包括以下几个步骤：

1）定义搜索空间：定义需要搜索的超参数、架构或硬件配置的空间范围。

2）选择搜索算法：选择适合问题的算法，如随机搜索、网格搜索、贝叶斯优化、遗传算法等。

3）构建评估系统：用于评估每个配置的性能，涉及训练和验证模型，并计算性能指标。

4）搜索和优化：使用选定的优化算法在搜索空间中探索并优化配置，涉及对配置进行并行或分布式搜索。

5）验证和选择最佳配置：在搜索完成后，验证最终得到的配置，并选择性能最佳的配置作为最终结果。

以超参数优化为例，介绍一个基于贝叶斯优化的自动调优框架：Optuna。Optuna是一个用于超参数优化的自动调优框架，它提供了多种优化算法，并支持分布式优化和可视化。

import optuna

def objective(trial):

# 定义搜索空间

learning_rate = trial.suggest_float('learning_rate', 1e-5, 1e-1)

dropout_rate = trial.suggest_float('dropout_rate', 0.0, 0.5)