CPU AMX 详解_avx amx-CSDN博客

文章讲述了Intel在面对NVGPU在AI领域的竞争压力下，如何通过增强CPU的向量处理能力，从AVX-512到AMX的演进，提升矩阵计算性能，以适应AI工作负载的需求。AVX通过向量处理加速计算，而AMX则引入矩阵协处理器，大幅提高每时钟周期的算力，尤其是对于矩阵乘法这类AI关键运算。尽管进步显著，但硬件和软件的优化匹配、不同操作类型的算力平衡等问题仍待解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

2016 年开始，随着 NV GPU AI 能力的不断加强，隐隐感觉到威胁的 Intel 也不断在面向数据中心的至强系列 CPU 上堆砌计算能力，增加 core count 、提高 frequency 、增强向量协处理器计算能力三管其下。几乎每一代 CPU 都在 AI 计算能力上有所增强或拓展，从这个方面来讲，如果我们说它没认识到势，没有采取行动，也是不公平的。

从上图不难看到，2015年的 Sky Lake 首次引入了 AVX-512 (Advanced Vector eXtensions)向量协处理器，与上一代 Broadwell 的 AVX2 相比，每个向量处理器单元的单精度浮点乘加吞吐翻倍。接着的Cascade Lake 和 Cooper Lake又拓展了 AVX-512 ，增加了对 INT8 和 BF16 精度的支持，奋力想守住 inference 的基本盘。一直到 Sapphire Rapids，被市场和客户用脚投票，前有狼（NVIDIA）后有虎（AMD），都把自己的食盆都快拱翻了，终于意识到在AI的计算能力上不能在按摩尔定律线性发育了，最终也步Google和NVIDIA的后尘，把AVX升一维成了AMX(Advanced Matrix eXtension)，即矩阵协处理器了。充分说明一句老话，你永远叫不醒一个装睡的人，要用火烧他。不管怎么样，这下总算是赛道对齐了，终于不是拿长茅对火枪了。

算力如何

AI 工作负载 Top-2 的算子：

Convolution

MatMul/Fully Connected

这俩本质上都是矩阵乘。怎么计算矩阵乘，有两种化归方法：

化归成向量点积的组合，这在CPU中就对应AVX

化过程分块矩阵乘的组合，这在CPU就对应AMX

我们展开讲讲。

问题定义

假设有如下矩阵乘问题：

AVX如何解决矩阵乘问题

AVX把向量作为一等公民，每次计算一个输出元素

，而该元素等于

的第

行与

的第

列的点积，即有：

不就化归成向量点积了嘛。那向量的长度是可以任意指定的，但硬件是有固定长度的，怎么办？很简单，就把每个向量切成每个长度为

的块，多做几次就好了。这个

就是区分AVX各代的主要因素。下面以AVX2为例浅释一下。

AVX2 FP32 (k=8)
AVX2使用的寄存器长度为256 bit，也就是8个FP32数，此时

。AVX的乘加> 指令操作示意如下：

一个时钟周期可以完成两个8维向量的点积操作，也叫FMA(Fused Multiply > Add）操作。因此每个AVX单元的FLOPS为：16 FLOPS/cycle。

以FP32/BF16为例，AVX算力的代际演进如下，可以看出相邻代际增长是平平无奇的2倍。

AMX如何解决矩阵乘问题

以BF16为例，AMX把矩阵乘操作化归为若干个

的分块矩阵乘的组合，如下所示。

需要注意的是整个操作需要16个cycle完成，因此不难计算每个AMX单元的FLOPS为：1024 OPS/cycle。这下单AMX单元与单AVX单元的每时钟周期的算力提高了16倍，有点像样了。目前Sapphire Rapids每个核有一个AMX单元，而有两个AVX单元，因此每核的每时钟周期算力提高倍数为8倍。