最大化TensorFlow* CPU性能

最新推荐文章于 2024-12-28 09:49:20 发布

chen_ ：)

最新推荐文章于 2024-12-28 09:49:20 发布

阅读量8.5k

点赞数 1

分类专栏： ASC学习文章标签： tensorflow 人工智能 python

原文链接：https://www.intel.com/content/www/us/en/developer/articles/technical/maximize-tensorflow-performance-on-cpu-considerations-and-recommendations-for-inference.html

版权

ASC学习专栏收录该内容

28 篇文章

订阅专栏

用户可以在v2.5之后的官方x86-64 TensorFlow 设置环境变量TF_ENABLE_ONEDNN_OPTS=1来启用这些CPU优化。

export TF_ENABLE_ONEDNN_OPTS=1

大多数建议都适用于官方x86-64 TensorFlow和英特尔®TensorFlow优化。OpenMP调优等一些建议只适用于TensorFlow的英特尔®优化。

TensorFlow图形选项改进性能

LPOT

提供了一个统一的低精度推理接口, 为fp32预训练模型提供了比TensorFlow优化工具optimize_for_inference更多的优化(例如消除公共子表达式)。
用户有不同的选项来优化他们的预训练模型，这些选项包括英特尔®低精度优化工具(英特尔®LPOT)，以及TensorFlow github的工具。
建议使用LPOT在Intel架构上进行预训练的模型优化

Tools from TensorFlow github

First, use Freeze_graph
冻结图形可以提供额外的性能好处。freeze_graph工具，由于所有权重都冻结在结果推理图中，可以期望得到更好的推理时间.
Second, Use Optimize_for_inference
在图形被冻结后，额外的转换可以帮助优化用于推理的图形。

TensorFlow运行时选项提高性能

在这里插入图片描述

intra_/inter_op_parallelism_threads

intra_op_parallelism = number of physical core per socket
#每个插槽的物理内核数

 inter_op_parallelism = number of sockets

通过执行bash脚本文件, get the number of physical core per socket and number of sockets on your platform

#!/bin/bash
total_cpu_cores=$(nproc)
number_sockets=$(($(grep "^physical id" /proc/cpuinfo | awk '{print $4}' | sort -un | tail -1)+1))
number_cpu_cores=$(( (total_cpu_cores/2) / number_sockets))

echo "number of CPU cores per socket: $number_cpu_cores";
echo "number of socket: $number_sockets";

intra_op_parallelelism_threads和inter_op_parallelelism_threads是TensorFlow中定义的运行时变量。

ConfigProto

ConfigProto用于创建会话时进行配置。这两个变量控制要使用的内核数:

intra_op_parallelism_threads
此运行时设置控制操作内部的并行性。例如，如果打算在多个线程中执行矩阵乘法或简化，则应该设置这个变量。 TensorFlow将在包含intra_op_parallelelism_threads线程的线程池中调度任务。建议将此环境变量设置为可用物理核的数量。

inter_op_parallelism_threads

NOTE: This setting is highly dependent on hardware and topologies, so it’s best to empirically confirm the best setting on your workload.

运行时设置控制独立操作之间的并行性。由于这些操作彼此不相关，TensorFlow将尝试在包含inter_op_parallelelism_threads线程的线程池中并发运行它们。这个变量应该设置为您希望运行代码的并行路径的数量。对于TensorFlow的英特尔®优化，我们建议从设置“2”开始，并在实证测试后进行调整。

Data Layout

data_format = NHWC

数据布局，即如何存储和访问数据
有效地使用缓存和内存可以显著提高整体性能。良好的内存访问模式可以最小化访问内存中的数据的额外成本，并提高整体处理能力
Data Layout 描述了多维数组如何在内存地址空间中线性存储。
在大多数情况下，数据布局用四个字母表示一个二维图像:
在这里插入图片描述

N：Batch size，批量大小，表示每批图像的数量。
C：Channel，“通道”表示图像的通道数。
W：Width，宽度，表示图像的水平像素数。
H： Height，高度，表示图像的垂直像素数。

这四个字母的顺序表示像素数据在一维存储空间中的存储方式。
例如，NCHW表示像素数据先存储为宽度，然后存储为高度，然后存储为通道，最后存储为批处理(如图2所示)。然后使用通道优先索引从左到右访问数据。NCHW是使用oneDNN的推荐数据布局，因为这种格式对于CPU来说是一种有效的数据布局。TensorFlow使用NHWC作为默认的数据布局，但它也支持NCHW。

NOTE : Intel Optimized TensorFlow supports both plain data formats like NCHW/NHWC and also oneDNN blocked data format since version 2.4. Using blocked format might help on vectorization but might introduce some data reordering operations in TensorFlow.

用户可以通过TF_ENABLE_MKL_NATIVE_FORMAT环境变量在Tensorflow中启用/禁用oneDNN阻塞数据格式。
通过export TF_ENABLE_MKL_NATIVE_FORMAT=0, TensorFlow将使用oneDNN阻塞数据格式代替。
建议通过下面的命令启用NATIVE_FORMAT，以获得良好的开箱即用性能。（to achieve good out-of-box performance.）

export TF_ENABLE_MKL_NATIVE_FORMAT=1 (or 0)

NUMA (Non-uniform memory access)控制影响性能

numactl --cpunodebind=0 --membind=0 python

NUMA，或称非均匀内存访问，是一种用于数据中心机器的内存布局设计，旨在利用具有多个内存控制器和块的多插槽机器中的内存位置。
在支持numa的机器上运行会带来一些特殊的注意事项。
当将执行和内存使用限制在单个NUMA节点时，TensorFlow的Intel®Optimization运行推理工作负载最佳。
在启用numa的系统上运行时，建议将intra_op_parallelelism_threads设置为每个numa节点的本地内核数。

并行执行
可以通过将工作负载分解为多个数据分片，然后在多个NUMA节点上并发运行它们来优化性能。在每个节点(N)上执行如下命令:

numactl --cpunodebind=N --membind=N python

可以使用" & "命令在多个NUMA节点上同时启动进程:

numactl --cpunodebind=0 --membind=0 python & numactl --cpunodebind=1 --membind=1 python

英特尔®TensorFlow优化的OpenMP技术性能

英特尔®TensorFlow优化利用OpenMP并行化CPU内核之间的深度学习模型执行。

在这里插入图片描述针对其特定的神经网络模型和平台调整这些环境变量的值,来调优英特尔®优化的TensorFlow性能.

OMP_NUM_THREADS

export OMP_NUM_THREADS=num physical cores

如果应用程序中没有指定其他值，则此环境变量设置OpenMP并行区域使用的最大线程数

启用超线程后，一个物理CPU核心有多个硬件线程，但建议仅为一个物理CPU核心使用一个硬件线程，以避免缓存丢失问题。

用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。

该值可以是一个整数，在这种情况下，它指定所有并行区域的线程数。该值也可以是一个逗号分隔的整数列表，在这种情况下，每个整数指定嵌套级别上并行区域的线程数。(列表中的第一个位置表示最外部的并行嵌套级别，第二个位置表示下一个内部的并行嵌套级别，以此类推。)

默认值是执行程序的操作系统可见的逻辑处理器的数量。建议与物理核数相同。

KMP_AFFINITY

export KMP_AFFINITY=granularity=fine,compact,1,0

用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。

NOTE The recommendation changes if Hyperthreading is disabled on your machine. In that case, the recommendation is: KMP_AFFINITY=granularity=fine,verbose,compact if hyperthreading is disabled.

KMP_BLOCKTIME

export KMP_BLOCKTIME=0 (or 1)

这个环境变量设置线程在完成一个并行区域的执行后，在进入睡眠之前应该等待的时间(以毫秒为单位)。缺省值是200ms。(The default value is 200ms.)
在完成一个并行区域的执行后，线程会等待新的并行工作可用。经过一段时间后，它们停止等待，进入睡眠状态。在更多的并行工作可用之前，休眠允许非openmp线程代码或其他应用程序使用线程，这些代码可以在并行区域之间执行。
如果线程仅为OpenMP执行而保留，但可能会惩罚其他并发运行的OpenMP或线程化应用程序，那么更大的KMP_BLOCKTIME值可能更合适。对于基于卷积神经网络(CNN)的模型，建议设置为0。