最大化TensorFlow* CPU性能

用户可以在v2.5之后的官方x86-64 TensorFlow 设置环境变量TF_ENABLE_ONEDNN_OPTS=1来启用这些CPU优化。

export TF_ENABLE_ONEDNN_OPTS=1

大多数建议都适用于官方x86-64 TensorFlow和英特尔®TensorFlow优化。OpenMP调优等一些建议只适用于TensorFlow的英特尔®优化。

TensorFlow图形选项改进性能

LPOT

提供了一个统一的低精度推理接口, 为fp32预训练模型提供了比TensorFlow优化工具optimize_for_inference更多的优化(例如消除公共子表达式)。
用户有不同的选项来优化他们的预训练模型,这些选项包括英特尔®低精度优化工具(英特尔®LPOT),以及TensorFlow github的工具。
建议使用LPOT在Intel架构上进行预训练的模型优化

Tools from TensorFlow github

First, use Freeze_graph
冻结图形可以提供额外的性能好处。freeze_graph工具,由于所有权重都冻结在结果推理图中,可以期望得到更好的推理时间.
Second, Use Optimize_for_inference
在图形被冻结后,额外的转换可以帮助优化用于推理的图形。

TensorFlow运行时选项提高性能

在这里插入图片描述

intra_/inter_op_parallelism_threads
intra_op_parallelism = number of physical core per socket
#每个插槽的物理内核数
 inter_op_parallelism = number of sockets

通过执行bash脚本文件, get the number of physical core per socket and number of sockets on your platform

#!/bin/bash
total_cpu_cores=$(nproc)
number_sockets=$(($(grep "^physical id" /proc/cpuinfo | awk '{print $4}' | sort -un | tail -1)+1))
number_cpu_cores=$(( (total_cpu_cores/2) / number_sockets))

echo "number of CPU cores per socket: $number_cpu_cores";
echo "number of socket: $number_sockets";

intra_op_parallelelism_threads和inter_op_parallelelism_threads是TensorFlow中定义的运行时变量。

ConfigProto

ConfigProto用于创建会话时进行配置。这两个变量控制要使用的内核数:

intra_op_parallelism_threads
此运行时设置控制操作内部的并行性。例如,如果打算在多个线程中执行矩阵乘法或简化,则应该设置这个变量。 TensorFlow将在包含intra_op_parallelelism_threads线程的线程池中调度任务。建议将此环境变量设置为可用物理核的数量。

inter_op_parallelism_threads

NOTE: This setting is highly dependent on hardware and topologies, so it’s best to empirically confirm the best setting on your workload.

运行时设置控制独立操作之间的并行性。由于这些操作彼此不相关,TensorFlow将尝试在包含inter_op_parallelelism_threads线程的线程池中并发运行它们。这个变量应该设置为您希望运行代码的并行路径的数量。对于TensorFlow的英特尔®优化,我们建议从设置“2”开始,并在实证测试后进行调整。

Data Layout

data_format = NHWC

数据布局,即如何存储和访问数据
有效地使用缓存和内存可以显著提高整体性能。良好的内存访问模式可以最小化访问内存中的数据的额外成本,并提高整体处理能力
Data Layout 描述了多维数组如何在内存地址空间中线性存储。
在大多数情况下,数据布局用四个字母表示一个二维图像:
在这里插入图片描述

N:Batch size,批量大小,表示每批图像的数量。
C:Channel,“通道”表示图像的通道数。
W:Width,宽度,表示图像的水平像素数。
H: Height,高度,表示图像的垂直像素数。

这四个字母的顺序表示像素数据在一维存储空间中的存储方式。
例如,NCHW表示像素数据先存储为宽度,然后存储为高度,然后存储为通道,最后存储为批处理(如图2所示)。然后使用通道优先索引从左到右访问数据。NCHW是使用oneDNN的推荐数据布局,因为这种格式对于CPU来说是一种有效的数据布局。TensorFlow使用NHWC作为默认的数据布局,但它也支持NCHW。

NOTE : Intel Optimized TensorFlow supports both plain data formats like NCHW/NHWC and also oneDNN blocked data format since version 2.4. Using blocked format might help on vectorization but might introduce some data reordering operations in TensorFlow.

用户可以通过TF_ENABLE_MKL_NATIVE_FORMAT环境变量在Tensorflow中启用/禁用oneDNN阻塞数据格式。
通过export TF_ENABLE_MKL_NATIVE_FORMAT=0, TensorFlow将使用oneDNN阻塞数据格式代替。
建议通过下面的命令启用NATIVE_FORMAT,以获得良好的开箱即用性能。(to achieve good out-of-box performance.)

export TF_ENABLE_MKL_NATIVE_FORMAT=1 (or 0)

NUMA (Non-uniform memory access)控制影响性能

numactl --cpunodebind=0 --membind=0 python

NUMA,或称非均匀内存访问,是一种用于数据中心机器的内存布局设计,旨在利用具有多个内存控制器和块的多插槽机器中的内存位置。
在支持numa的机器上运行会带来一些特殊的注意事项。
当将执行和内存使用限制在单个NUMA节点时,TensorFlow的Intel®Optimization运行推理工作负载最佳。
在启用numa的系统上运行时,建议将intra_op_parallelelism_threads设置为每个numa节点的本地内核数。

并行执行
可以通过将工作负载分解为多个数据分片,然后在多个NUMA节点上并发运行它们来优化性能。在每个节点(N)上执行如下命令:

numactl --cpunodebind=N --membind=N python

可以使用" & "命令在多个NUMA节点上同时启动进程:

numactl --cpunodebind=0 --membind=0 python & numactl --cpunodebind=1 --membind=1 python

英特尔®TensorFlow优化的OpenMP技术性能

英特尔®TensorFlow优化利用OpenMP并行化CPU内核之间的深度学习模型执行。

在这里插入图片描述针对其特定的神经网络模型和平台调整这些环境变量的值,来调优英特尔®优化的TensorFlow性能.

OMP_NUM_THREADS

export OMP_NUM_THREADS=num physical cores

如果应用程序中没有指定其他值,则此环境变量设置OpenMP并行区域使用的最大线程数

启用超线程后,一个物理CPU核心有多个硬件线程,但建议仅为一个物理CPU核心使用一个硬件线程,以避免缓存丢失问题。

用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。

该值可以是一个整数,在这种情况下,它指定所有并行区域的线程数。该值也可以是一个逗号分隔的整数列表,在这种情况下,每个整数指定嵌套级别上并行区域的线程数。(列表中的第一个位置表示最外部的并行嵌套级别,第二个位置表示下一个内部的并行嵌套级别,以此类推。)

默认值是执行程序的操作系统可见的逻辑处理器的数量。建议与物理核数相同。

KMP_AFFINITY

export KMP_AFFINITY=granularity=fine,compact,1,0

用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。

NOTE The recommendation changes if Hyperthreading is disabled on your machine. In that case, the recommendation is: KMP_AFFINITY=granularity=fine,verbose,compact if hyperthreading is disabled.

KMP_BLOCKTIME

export KMP_BLOCKTIME=0 (or 1)

这个环境变量设置线程在完成一个并行区域的执行后,在进入睡眠之前应该等待的时间(以毫秒为单位)。缺省值是200ms。(The default value is 200ms.)
在完成一个并行区域的执行后,线程会等待新的并行工作可用。经过一段时间后,它们停止等待,进入睡眠状态。在更多的并行工作可用之前,休眠允许非openmp线程代码或其他应用程序使用线程,这些代码可以在并行区域之间执行。
如果线程仅为OpenMP执行而保留,但可能会惩罚其他并发运行的OpenMP或线程化应用程序,那么更大的KMP_BLOCKTIME值可能更合适。对于基于卷积神经网络(CNN)的模型,建议设置为0。

KMP_SETTINGS

export KMP_SETTINGS=TRUE

这个环境变量启用(TRUE)或禁用(FALSE)在程序执行期间打印OpenMP运行时库环境变量。

### 如何快速安装 TensorFlow CPU 版本 TensorFlow 是一种广泛使用的机器学习框架,其提供了多种安装方式以及针对不同硬件环境的支持。以下是关于如何快速安装 TensorFlow CPU 版本的方法: #### 方法一:通过 `pip` 工具直接安装 这是官方推荐的一种简单快捷的方式。只需一条命令即可完成 TensorFlow 的安装: ```bash pip install tensorflow-cpu ``` 此命令会自动下载并安装适合当前系统的 TensorFlow CPU 版本[^1]。 如果需要指定特定版本,则可以通过如下方式进行安装: ```bash pip install tensorflow==<version> ``` 例如,安装 2.4.1 版本的 TensorFlow CPU 版: ```bash pip install tensorflow==2.4.1 ``` 需要注意的是,在 Windows 系统下可能需要使用 `pip3` 来代替 `pip`,具体取决于 Python 的配置情况[^2]。 --- #### 方法二:利用 Anaconda 进行安装 Anaconda 提供了一个集成化的科学计算环境,能够简化依赖管理过程。对于 TensorFlow 的安装,可以直接通过 Conda 渠道实现: ```bash conda install -c anaconda tensorflow ``` 或者更精确地指定为 CPU 版本: ```bash conda install -c anaconda tensorflow-cpu ``` 这种方式的优势在于它会自动解决所有的依赖关系,并确保兼容性良好[^5]。 另外,也可以创建一个新的虚拟环境后再进行安装,以避免与其他项目发生冲突: ```bash conda create -n tf_env python=3.8 conda activate tf_env conda install -c anaconda tensorflow-cpu ``` --- #### 方法三:手动编译 TensorFlow (适用于高级用户) 虽然这种方法较为复杂且耗时较长,但它允许完全自定义构建选项,从而获得最佳性能表现。首先需克隆 TensorFlow GitHub 仓库,接着按照文档指引设置 Bazel 构建工具及相关参数[^3]。不过一般情况下并不建议普通开发者采用该途径除非有特殊需求。 --- ### 性能优化技巧 为了充分发挥 TensorFlow CPU 版本的能力,可以从以下几个方面入手调整设置: 1. **启用 MKL 加速**: Intel Math Kernel Library(MKL) 能显著提升矩阵运算效率。当通过上述两种常规手段安装 TensorFlow 时,默认已包含对 MKL 的支持无需额外操作[^4]。 2. **合理分配线程数**: 修改程序内部默认使用的 CPU 核心数量有助于改善训练速度。可通过以下代码片段控制最大可用逻辑处理器数目: ```python import os os.environ['TF_NUM_INTEROP_THREADS'] = '2' os.environ['TF_NUM_INTRAOP_THREADS'] = '4' import tensorflow as tf tf.config.threading.set_inter_op_parallelism_threads(int(os.getenv('TF_NUM_INTEROP_THREADS'))) tf.config.threading.set_intra_op_parallelism_threads(int(os.getenv('TF_NUM_INTRAOP_THREADS'))) ``` 3. **减少不必要的日志输出**: 默认状态下可能会打印大量调试信息影响运行流畅度。关闭这些冗余消息可以稍微加快流程进度: ```python import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # 或者更高数值视具体情况而定 ``` --- ### 结论 综上所述,无论是初学者还是有一定经验的技术人员都可以依据自身条件选取合适的安装策略。通常来说借助于成熟的包管理系统像 Pip 或 Conda 就足以满足日常开发所需;而对于追求极致效能的专业人士而言,则不妨尝试深入探索更多定制化可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值