【高性能计算】程序性能优化理论与方法-CSDN博客

1.程序性能优化的意义

程序性能要求的不断提高

提高生产力水平、提高资源利用率、降低成本、满足时效性、增强用户体验

处理器架构的不断发展

主频提升、晶体管数量增加、功耗、互联、复杂度增长，摩尔定律不再适合单核处理器

单核结构：CPU时钟频率、执行效率，带SIMD扩展部件的处理器

多核结构：一颗芯片上集成多个处理器内核

众核结构：GPU图形处理器

异构结构：Cell处理器

专用结构：谷歌TPU

存储结构的不断发展

寄存器、L1缓存、L2缓存、存储器、IO设备

编译器能力的局现性

编译器采用的程序静态分析技术自身具有能力局限性；

编译策略的保守性原则制约了编译优化的能力；

编译器要在通用性和高效性之间保持微妙的平衡；

编译器采用何种优化策略还要考虑用户对编译时间的容忍度；

体系结构与计算器件的快速升级与迭代对编译器充满挑战。

编程模型的局限性

编程模型：CUDA、OpenACC、OpenCL、OpenMP、MPI

编程模型无法充分表达程序的理想性能；

编程模型无法充分发挥硬件的计算性能；

编程模型对硬件支持的局限性也会引起程序性能的降低。

2.程序性能的度量指标及优化流程

程序性能的度量指标

程序性能度量指标：执行时间、计算和访存效率、吞吐量和延时、加速比、Amdahl定律、Gustafson定律

程序执行时间：真实时间=内核时间+用户时间

计算和访存效率：理论浮点峰值与实际浮点峰值

加速比：同一程序在单处理器系统运行耗时 / 并行处理器系统中运行耗时

加速比：同一程序优化前的执行时间/优化的执行时间

Amdahl定律：加速比S = 1 / (1- a + a/n) ，a：并行计算部分所占比例，n：并行计算部分获得的加速比

优化流程

确定性能目标、测量获得性能数据、分析数据查找瓶颈、针对性修改优程序、验证优化是否正确且有效

本次性能优化结束、判断结果是否满足预期优化目标、性能优化结束

优化流程

测试用例的构造、性能目标的选择、正确性的判定、保持程序的可读性、程序性能优化的时机

3.程序性能的分析和测量

程序性能分析的视角

多维度：硬件、内核、系统调用、应用成像、系统库，从硬件分析、从软件分析

程序性能分析的方法

分段查找、等待排队、Little估算

程序性能分析工具

跟踪、剖析、监视、计数器

跟踪：gdb、pstack、strace

剖析：gprof、oneAPI、perf、nvprof

监视：netstat、sar、iotop、mpstat

计数器：vmstat、iostat、top、ps

4.系统配置优化

进程大部分时间花在了内核空间还是用户空间、查看应用程序有哪些系统调用及他们完成时长、查看进程在哪些函数上花费了很长时间

分析函数调用次数、分析代码热点函数是否有Cache/Tlib缺失

程序优先级

优先级调整：nice/renice值，[-20, 19]，值越大优先级越低，

调整已经在运行的进程：renice -n 9 12345

查看进程调度策略：chrt -p 12345

进程绑定：taskset -pc 7-10 10790

中断

中断：/proc/irq/nunber/smp_affinity，处理器位掩码

多核优化

多核优化：numactl --membind 1 --cpunodebind 1 --localalloc myapplication

内存优化

内核使用内存量增加：查看内核使用的内存类型

内核使用内存量没有增加：特定程序的驻留集大小增加

分析应用程序使用的内存类型：栈：查看使用栈的函数，堆：查看使用堆的函数，文本：查看函数文本占用大小，分析进程使用的库并分析函数大小

特定应用程序的驻留集大小没有增加：查看交换空间的使用量是否增加，查看进程使用共享内存情况

大页配置：/usr/src/kernel/include/asm/elf.sh，通常4KB/8KB

调整Swap：从进程的内存中换出一个分页，从分页Cache中丢弃一个分页

内存同页合并：Kernel Samepage Merging，KSM

资源控制：主存限制、虚拟内存控制，ulimit

文件系统优化

文件系统检查：挂载的文件系统数量、文件系统记录大小、是否启用访问时间戳、是否配置文件系统缓存、使用文件系统版本、文件系统是否有补丁

查看工具：vmstat、sar、SystemTap

Linux文件系统：ext2、ext3、ext4，tune2fs

手动挂载：mout

启动时挂载：/boot/grub/menu.lst，/etc/fstab

参数调整：文件描述符优化、内核参数调优

文件描述符数量：ulimit -n

设定用户级文件描述符：ulimit -SHn max-file-number

永久修改用户级文件描述符：/etc/security/limits.conf，hard nofile max-file-number，soft nofile max-file-number

系统内核优化

内核参数调优：每一个内核模块和驱动程序都在/proc/sys文件系统下提供了配置文件

系统级文件描述符限制：/proc/sys/fs/file-max

用户可以往epoll内核事件表中注册时间的总量：/proc/sys/fs/epoll/max_user_wathes

磁盘优化

磁盘：配置检查、参数调整

查看指令：fdisk、df、cat /proc/partitions，isotsat、sar、top

分析过程：系统是否强调特定磁盘、分析访问该磁盘的应用程序、分析应用程序访问的文件

IO优化

IO调度优化：ionice限制一个进程的磁盘系统使用率

IO磁盘调度：实时、尽力、空闲

软件调度优化

调度策略：完全公平调度器(Completely Fair Scheduler，CFQ)，默认调度器

NOOP：最简单的调度器，基于先进先出队列算法

Deadline：截止时间调度器

操作系统IO调度器策略参数：/sys/block/sda/seque/scheduler

网络优化

网络检查：网络可使用接口数量、当前接口使用情况、接口的速度、是否使用链路聚合、设置驱动的参数、域名系统是否配置、是否有已知的可能性能问题

查看工具：ifconfig、netstat、sar

参数调整：服务器相关参数调整、TCP参数调优

服务器相关参数调整：/etc/sysctl.conf，/proc/sys/net，/proc/sys/net/core/somaxconn，/proc/sys/net/ipv4/tcp_wmem

TCP参数调优：套接字和TCP缓存、TCP挤压队列、设备挤压队列、TCP阻塞控制、TCP选项、网络接口

5.编译运行优化

编译流程

编译器工作流程：预编译、编译、汇编、链接

预编译：文本处理成代码文件

编译：代码文件翻译为目标机器汇编代码

汇编：汇编代码翻译为二进制文件

链接：对目标文件、操作系统启动代码、库文件进行组织，将各个模块代码和到一起，生成可执行程序

LLVM编译器架构

前端：预编译、词法分析、语法分析、语义分析、生成IR

中端：常规编译优化、过程间优化、自动向量化、循环优化、其他优化

后端：指令选择、指令调度、目标代码生成

编译器前端

预编译：文件包含的插入、宏展开、条件编译、删除注释

词法分析：词法分析器读入程序的源代码字符流，扫描、分解字符串，识别出一个一个单词

语法分析：将词法分析拆解的单词组合成语法短语，同时分析这些语法是否符合高级程序设计语言中的语法规则

语义分析：审查代码源代码是否有语义错误，静态语义审查和处理，上下文相关性审查，类型匹配审查，类型转换

编译器前端-选项

预处理：-include ，-I ，-F

前端：-fsyntax-only，-dump-tokens，-ast-dump

语言和模式：-stdlib=

编译：-E，-emit-llvm -S

编译器中端

LLVM中间表示三种格式：在内存中的编译中间语言；磁盘上存储的二进制中间语言，以.bc结尾；可读的中间代码格式，以.ll结尾；

以.ll结尾可读的中间代码格式包含四部分：

模块：LLVM IR顶层容器，对应于编译前端的每个翻译单元，每个模块由目标机器信息、全局符号和元信息组成。

函数：对应编程语言中的函数，包括：函数签名和若干个基本块，函数内的第一个基本块是入口基本块

基本块：是一组顺序执行的指令集合，只有一个入口和出口，每个基本块的最后一条指令一般是跳转指令，跳转到其他基本块上

指令：是LLVM IR中最小可执行单元

中间代码

生成中间代码：clang -emit-llvm- S file.c -o file.ll

中间代码优化

中间代码优化：-O1、-O2、-O3、-Ofast

死代码删除：程序操作过程中不被执行的代码、对计算结果不起任何作用的代码。

过程间优化：涉及程序中多个过程的程序变换与优化，过程间分析阶段为优化分析提供足够的信息，用于支持过程间优化的各类程序变换。

内联优化：一个函数中调用了另一个过程，将该过程内联到函数体内，并且会重新对过程排序，以获得更好的内存布局。

自动向量化：将串行代码转为向量代码。

循环级向量化：通过扩大循环中的指令以获得多个连续迭代中操作的向量执行。-fvectorize

基本块级向量化：通过将基本块内可以同时执行的标量操作打包成向量操作来实现并行。-fslp-vectorize

循环优化

循环展开：将循环体代码复制多次的实线，通过增大指令调度的空间来减少循环分支指令的开销、增加局部使用引用的局限性，提高循环执行性能。-funroll-loops

循环分布：将循环中的一条或者多条语句移到一个循环语句中。-mllvm -enable-loop-distribute

循环剥离：常用于将循环中数据首地址不对齐的引用，循环末尾不能够装载到同一个向量寄存器的的数据玻璃出来，使剩余数据满足向量化对齐。-mllvm -unroll-peel-count

浮点优化：浮点数据规约向量化、除法运算优化、忽略浮点数0的正负号。-ffast-math

数据预取优化：自动数据预取、手工添加自动预取

编译器后端

目标代码生成：把中间代码变成目标机器上的目标代码，形式上包含：绝对指令代码、可重定位的指令代码、汇编指令代码。

工作原理与硬件体系结构相关，涉及到硬件系统功能部件的运用、机器指令的选择、各种数据类型变量的存储空间分配、寄存器分配。

目标格式文件

目标文件时源代码编译后但未被链接的文件，它与可执行文件内容和结构相似，广义上目标文件与可执行文件格式几乎一样的。

Linux操作系统格式：ELF文件，Executable Linkable Format。

ELF目标文件：ELF头、段、节头表。

ELF头：整个文件的基本属性，包含：ELF文件版本、目标机器型号、程序入口地址。

节头表：描述目标文件中各个节的信息，在ELF头和节头表之间是节本身，包含十个段。

.text：保存被编译程序的机器代码。

.rodara：只读数据段，如：printf语句中的格式串

.data：保存已初始化的全局变量和局部静态变量。

.bss：保存未初始化的全局变量和局部静态变量。

.symtab：记录在改模块中定义和引用的函数、全局变量的信息符号表

.rel.text：针对.text的重定位表，当链接器将该目标文件和其他目标文件链接时需要这些信息

.rel.data：全局变量的重定位信息

.debug：用于程序调试的调试符号表。

.strtab：用于保存.symtab段和.debug段的符号表中的名字和节头表中的名字。

这十各段组成了可重定位目标文件，有了这些目标文件，通过静态链接就可以将它们组合起来，形成一个可以运行的程序。

编译器后端-选项

编译极端：-S

后端选项：-mavx2、-msse、-mfentry、-mllvm、-distable-x86-lea-opt

数据选项：-malign-double，-mdouble

目标平台选项：-march = ，--cuda-hots-only

汇编

汇编器是将汇编代码转为机器可以执行的指令，每个汇编语句都对应一条机器指令，由.s汇编文件经汇编器生成.o目标代码文件。

链接

静态链接：将外部函数所在的静态链接库直接拷贝到目标可执行文件中，这样在执行程序时这些代码就会被装入到该进程的虚拟地址空间中。

动态链接：把程序拆分为各个相对独立的部分，在程序运行时才将他们链接在一起形成一个完整的程序。

链接时优化

链接时优化是链接器件的程序优化，多个中间文件通过链接器合并为一个程序，缩减代码体积，并通过对整个程序的分析以实现更好的运行时性能。

编译参数-flto：full(把分散的目标文件的LLVM IR合并到一个大的LLVM目标文件中)、thin(把目标文件分开)

数学库-BLAS

基本线性代数库，直接使用

数学库-MKL

编译参数-mkl：parallel、sequential、cluster

abs数学函数标量运算改为向量运算，可以同时求解处理N各abs值

汇编与链接-选项

汇编：-c

链接：-o、-Bstatic、-I、-L、-shared-libsan、-flto=、-lm

6.程序编写优化

算法时间复杂度：常数阶、对数阶、线性阶、线性对数阶、平方阶、指数阶、阶乘阶

选择合适的算法：冒泡排序(n2)、直接插入排序(n2)、简单选择排序(n2)

改进算法策略：算法过程尽量减少算法复杂度，算法编码尽量使用一些优化技巧

典型数据结构

类型：集合、线型、树形、图形

数据结构：数组、有序数组、栈、队列、链表、二叉树、哈希表、堆、图

数据操作：查找、插入、删除、遍历

选择合适的数据结构

疏矩阵向量乘法：坐标存储、行压缩存储、对角存储、ELLPACK存储

程序编写优化

别名消除：在同一个程序中两个以上的指针引用相同的存储位置时，将存在指针别名的问题。

常数传播：手动进行常数传播优化。

内联函数：在被调用处复制函数代码副本，通过代码膨胀将被调函数体副本直接在调用处进行内联替换，同时被调过程内的形参也被替换为主调过程的实参。

过程克隆：一个过程在不同的调用环境下表现出不同的表现特性，需要生成该过程的多个表现，便于后续对每个表现进行不同的优化处理，程序的调用点会根据上下文的属性信息来选择调用过程的某个版本。

全局变量优化：尽量不使用全局变量，如果使用也要基于参数传递的方式。

删除冗余语句：没有任何运行的代码、声明了但是没有使用的变量

代数变换：代数表达式转为常量

循环优化

循环不变量外提：循环迭代空间不变的量放到外面计算。

循环展开：将循环体内的代码循环多次操作，减少循环分支指令，增大处理器指令调度空间，获得更多的指令级并行。

循环合并：具有相同迭代空间的循环合并成一个循环。

循环分段：外层循环并行化、内层循环向量化。

循环变换：交换多层循环的循环顺序，为了提高寄存器的重用能力，把携带依赖的循环放在内存循环，使可以被重用的值保留在寄存器中。

循环分块：C语言行优先访问，将循环行数设置为与硬件告诉缓存行相匹配，减少主存取数的时间，提升性能。

循环分块：增加循环嵌套的维度来提升数据局部性的循环变换技术。

循环分布：将一个循环分解为多个循环，每个循环都与原循环具有相同的迭代空间，但只包含原循环的语句子集。

循环分裂：对循环的迭代次数进行拆分

去除相关性

消除依赖：编写程序时尽量消除依赖关系

标量扩展：将循环中的标量引用用编译器生成的临时数值替换

标量重命名：引用两个不同的变量代替现有变量来消除依赖

数组重命名：数组的存储单元有时被重用导致不必要的反依赖和输出依赖，可以使用数组重命名来消除依赖

公共子表达式优化：程序中包含两个或多个相同子表达式，仅需要计算一次子表达式的值

分支语句优化

合并判断条件：分支判断条件是复杂表达式时，可以进行优化

生成选择指令：选择指令是一个三目运算符指令，将分支指令用选择指令进行替换、可以提升效率

运用条件编译：条件编译是在编译时判断、普通分支判别是在运行时判断、编译后的代码较长、性能不如条件编译

移除分支语句：将分支路径转换到一张表中，分支条件转换为索引、分支跳转转化为元素

平衡分支判断：通过平衡判断分支对分支语句进行优化

7.数据级并行

程序向量化

SIMD：向量代码，同时对多个数据进行相同操作

循环的向量化、基本块的额向量化、函数的向量化、分支的向量化、归约的向量化、合适的向量长度

基本块的额向量化

有些循环不适合直接向量化，可以对循环做变换：将可向量化和不可向量化的语句分块，循环剥离可以使得循环内的数据对齐，循环变换可以使得内存循环的访存变得连续

循环的向量化

一般选择内存循环作为向量化的目标，内存循环存在依赖关系，不能向量化时，选择外层循环进行向量化

基本块的额向量化

也叫直线型向量化，是从指令级并行挖掘数据级并行，非同构语句转为同构语句

函数的向量化

将几个相邻实例合并为一个计算实例，合并为单程序多数据的程序，即函数的参数为向量、返回值也为向量

分支的向量化

可以将控制依赖转换为数据依赖，借助向量条件选择指令完成向量指令生成

归约的向量化

将多个元素规约为一个元素，规约加、规约乘；使用向量位移指令实线规约；

合适的向量长

向量寄存器使用状态：满载使用、一段无效的部分使用、两端无效的部分使用、不连续的部分使用

向量程序优化

向量程序优化：不对齐访存、不连续访存、向量重用、向量运算融合、循环完全展开、全局不变量合并

不对齐访存

尽量使用对齐的访问指令；将不对齐访存调整为对齐访存；多维数组的最低维长度不是向量长度的整数倍时，增加最低维数组长度，使得向量化时可以按照统一对齐的方式进行向量化装载和存储

不连续访存

利用处理器的向量指令实现不连续方存程序的向量化；对于不连续但是访问规律的程序，可以通过向量重组实现向量化；通过混洗指令实现float类型转换为四个槽位的相同数据

向量重用

向量寄存器全部数据重用、向量寄存器部分数据重用

向量运算融合

多个向量运算合并为一条向量运算

循环完全展开

循环被向量化后继续展开

全局不变量合并

循环不变的量移到循环的外面

8.访存优化

寄存器分配

存储结构：寄存器(Register)、高速缓存(Cache)、主存储器(DRAM)、辅助存储器(硬盘、光盘)

减少全局变量使用：全局变量的有效范围在整个程序范围内，且全局变量会占用一个寄存器

直接读取寄存器：编译时主要对标量进行寄存器分配，编写程序时尽量将数组变为标量，避免每次都从缓存中加载数据，减少读写内存的次数，减少程序中读写数据的耗时

防止寄存器溢出：需要的寄存器数量大于可分配的寄存器数量时，会出现寄存器溢出，会消除先前性能调优的优势

寄存器重用

寄存器重用：当数据从缓存加载到寄存器时，应该尽可能地将后续还要使用的数据保留在寄存器，避免数据再次从缓存读取，寄存器重用可以减少内存访问

缓存分块

缓存：一级缓存、二级缓存，一级缓存：数据缓存、指令缓存

缓存分块：对原始循环中的i、j层进行分块，将原始大小矩阵分分解为若干小矩阵，内层嵌套循环每次对小矩阵计算一个部分结果

分块大小：分块大小为50、分块大小为1024

缓存地址映射策略：直接相连、组相连、全相连

直接相连：内存中的每个数据块都能映射到缓存中的特定缓存行

组相连：内存和缓存都分组，组间采用直接映射、组内采用全相连映射

全相连：内存中的每个数据块都能映射到缓存中的任意缓存行

一类数组：数组其矩阵行是整个缓存大小的整数倍，缓存利用率较低

二类数组：数组其矩阵行长度不是缓存行的整数倍：缓存命中率较低

三类数组：数组其矩阵行长度是缓存行的整数倍：缓存命中率非常高

比如：数据由251列扩展为256列，扩充的部分0值补齐，矩阵行长度就是缓存行长度的整数倍，二类数组变成一类数组，增加了缓存命中率

减少伪共存

数据一致性：某个处理器核心修改缓存行数据时，其他处理器通过监听机制获悉并使用其共享缓存行失效，

此时处理器核心将修改后的缓存行写回到主存中，其他处理器需要此缓存行共享数据，需要从内存中重新加载，并放到缓存。

缓存行的伪共享：在多核CPU系统中，要操作的不同变量处于同一缓存行，某核心更新缓存行中的数据并将其写会缓存，其他核心会使该缓存行失效，

使用时需要从内存中重新加载，引发伪共享，伪共享会导致大量缓存冲突，应该尽量避免。

多线程往往不可避免出现数据共享：尽量少的使用共享数据，将不同线程操作的数据分配在不同的缓存行，或者进行缓存行填充，避免多个现场共享同一缓存行的数据；

多个核心共享同一缓存行数据时，如果不进行对缓存的读写，是不会发生伪共享问题，所以应该少量地修改数据。

减少伪共存：linuxc2c可以搜集高速缓存行的性能数据，生成报告，分析伪共享内存性能

数据预取

数据预取：将处理器所需的数据提前加载到缓存行，避免缓存不命中

数据预取效果：无预取、理想预取、非理想预取

预取实现：软预取、硬预取

软预取：提前把指令和数据预取到缓存行中的硬件机制，不需要使用预取指令和额外代码，需要支持动态程序分支预测，所以预取的范围比较小，且会增加系统整体开销

硬预取：通过插入预取指令，提前把数据读入缓存，对系统开销影响较小，也不会减慢访问的速度，是一种灵活的数据预取方式

预取指令/函数：__buildin_prefetch()，函数原型：void__buildin_prefetch()

减少内存读写

处理器可以直接寻址的存储，每次读写需要300-400个时钟周期，访问速度非常慢，程序优化过程中应该优先充分利用寄存器，而不是访存

大多数情况下，处理器可以很好解决这个问题，但是在具有编译器别名或者读写依赖情况下，需要手工处理优化

数据对齐

当处理器访问正确对齐的数据时，运行效率最高，数据没有正确对齐时，处理器需要执行异常条件或者执行多次对齐的内存访问，以便读取完整的未对齐数据，导致运行效率比较低

结构体分配内存空间采用的内存对齐规则是：变量的起始地址能够被其对齐值整除；结构体变量的对齐值为最宽的成员大小；

结构体每个成员相对于起始地址的偏移能够被其对齐值整除，如果不能则在前一个成员补充字节；

结构体总体大小能够被最宽的成员大小整除，如果不能整除则在后续补充字节。

定义结构体时，应该按照成员大小由大到小、由小到大的顺序定义，建议大数据类型在前面，小数据类型在后面，一方面会节省空间，另一方面可以更好地满足处理器的对齐要求。

直接内存访问

直接传输外围设备和内存之间的数据，处理器可以直接使用该数据，可以提升内存数据的传输效率。

DMA机制在处理器需要使用数据时提前将数据搬运至处理器内，缓存机制需要数据时才搬运数据，DMA机制比缓存机制运行时间更短。

访存与计算重叠

在指令层将访存与计算部分重叠，可以有效地减少访存延时。

磁盘操作

程序对磁盘的读写速度很慢，对磁盘的操作涉及机械操作，为了提高效率，应该尽量减少磁盘的输入输出IO。

多线程操作

多线程随机读写的速度可以达到但现成的额10倍以上，但同时会导致响应时间增大。

避免随机写

若磁盘为顺序访问，相邻两次IO操作的逻辑块起始地址也是相邻的，此时磁头几乎不用换道，或者换道的时间很短；磁盘随机读写会导致磁头不停地换道，造成的效率极大降低。

通过将数据在内存中缓存并进行排序，使得写盘的时候不是完全随机的，使得磁头的移动只是一个方向，缩短磁盘的寻址时间。

磁盘预读

为了减少磁盘的读入和写出，可以采用数据预取的方式将所需的数据放入内存。

数据预取不是越大越好，在很多情况下也考考虑IO延时的问题。

在磁盘数据预取时，可以采用linux系统的current窗口和ahead窗口来跟踪当前数据预取的状态。

数组重组

程序的核心循环常常存在多个数组之间的数组运算，这些数组在内存上并不是连续的，会导致程序的局部访问性较差，

可以使用数组重组的方式将多个数组合并为结构体数组，该结构体的属性域为重组前各数组的元素，从而提高程序访问数据的局部性。

数组转换

当循环访问数组中元素时，若最内层循环对数组的索引方式与内存中存放方式不同，会导致数据的访问不连续，无法充分利用程序的空间局限性；

可以使用数组转置的方式对数组的数据布局进行变换，使得内部循环对数组的访问连续。

结构属性域调整

程序中访问结构体变量时，常被访问的可能是少量的属性域，如果改变这些结构体的定义，使经常被访问的属性域组织在一起，能够有效地提高结构体变量的空间局部性。

结构体拆分

结构体拆分也可以改进数据的局部性。

9.OpenMP优化

10.CUDA性能优化

11.MPI程序优化

12.多层次并行程序优化

参考：先进编译实验室博客-先进编译实验室专栏文章-文集-哔哩哔哩视频