常用的并行机分别从机器,算法,程序三方面对并行机的性能进行评估。
1. 并行机的基本评测标准(机器级)
名称 | 符号 | 含义 | 单位 |
机器规模 | n | 处理器的数量 | 无量纲 |
时钟速度 | f | 时钟长度的倒数 | MHz |
工作负载 | W | 计算操作的数目 | MFLOP |
顺序执行时间 | T1 | 程序在单处理机上的运行时间 | s |
并行执行时间 | Tn | 程序在并行机上的运行时间 | s |
速度 | 每秒百万次浮点运算 | MFLOPS | |
加速 | 衡量并行机的速度 | 无量纲 | |
效率 | 衡量处理器的利用率 | 无量纲 | |
峰值速度 | 所有处理器的峰值之和 | MFLOPS | |
利用率 | 可达速度与峰值速度之比 | 无量纲 | |
通信延迟 | 传送0字节或单字的时间 | us | |
渐进带宽 | 传送长信息的速率 | MBps |
1.1 工作负载
所谓工作负载是指计算操作数目,通过执行时间,浮点运算数,指令数目三个物理量进行衡量。
- 执行时间
执行时间包括:CPU执行时间,访问内存的时间,IO交互时间等。
- 浮点运算数
浮点数运算数目。
- 指令数
所执行的指令条数。
1.2 并行执行时间
计算时间;表示并行开销时间(进程管理时间,组操作等);表示互相通信时间(同步时间,聚合时间)。
1.3 存储器的层次架构
- 容量C
表示实际的物理存储器件能保存多少字节;
- 延迟L
表示读取各层物理器件中一个字所需要的时间。
- 带宽B
内存的带宽是指数据从内存到处理器的速度,是由存储器主线和存储器部件决定。假设字长为128bit(16B),如果并行机内核有两个load Unit,一个Store Unit,且在1拍内完成128bit的加法,且时钟周期为1GHz,则带宽为3*16*1*10^9 = 48GBps.
2.加速比性能定律(算法级)
2.1.Amdahl 定律
固定工作总量不变,在固定问题规模的前提,增加处理器的数量对加速比的影响.
2.2 Gustafson定律
固定时间不变,增加处理器的同时相应的增加问题规模对加速比的影响。
2.3 sun和ni定律
内存绝对允许,增加问题规模对加速比的影响。
2.4 可扩展性评测标准
扩展性是计算机系统随处理器数目的增加而增强的能力,比如我在小规模处理器下完成并行计算的性能测试,移植到大规模处理器下,是否能够按比例提升。
1.等效率标准
增加处理器p的规模,问题规模随之变换,但保证效率不变,称为等效率标准。
2.等速度标准
保持速度不变,随着处理器p数量的增加,相应的扩大问题规模,保证速度不变。
3.平均延迟标准
平均延迟是在效率E不变,用平均延迟的比值来衡量随p的增加,相应增加多少工作量。