如果请求的RAM单元存在地址-数据相关性(也就是说,一个单元含有另一个单元的地址),那么CPU不能并行地处理他们,而在得到地址之前必须等待。以while(next=p[next])为例来考虑这种情况。
在处理器得到next变量值之前,它不会知道下一个单元的地址而不能开始加载它。这样一个循环的执行时间主要由内存子系统的延时决定,而与它的吞吐量很少有关。
与之相对的是while(a=p[next++])。处理器请求芯片组加载p[next]单元,并立即将next加1.用不着等待应答(因为下一个单元的地址是知道的),处理器向芯片组一个接一个地发送请求信息。处理器持续发送请求信息直到尚未处理的请求个数达到最大值为止。犹豫一个接着一个出现的请求之间存在最小限度的延时,它们可以被看做是并行处理的。加载N个相关单元所需要的时间一般可以由下式表达:
t = N(T_ch + T_mem)
其中,T_ch是芯片组等待时间,而Tmem表示存储器等待时间。因而,加载相同数目的非相关单元所需要的时间为:
t = N/C*(T_ch + T_mem)
这个公式中的C是存储器子系统的吞吐量。
这样一来,在处理非相关数据时,存储器子系统延时的负面影响会很明显地降低,因此性能主要决定于吞吐量。
同样,笔者也在计算机上对两种处理方式进行了测试,处理非相关数据可以提速1.7~2.5倍。
在处理器得到next变量值之前,它不会知道下一个单元的地址而不能开始加载它。这样一个循环的执行时间主要由内存子系统的延时决定,而与它的吞吐量很少有关。
与之相对的是while(a=p[next++])。处理器请求芯片组加载p[next]单元,并立即将next加1.用不着等待应答(因为下一个单元的地址是知道的),处理器向芯片组一个接一个地发送请求信息。处理器持续发送请求信息直到尚未处理的请求个数达到最大值为止。犹豫一个接着一个出现的请求之间存在最小限度的延时,它们可以被看做是并行处理的。加载N个相关单元所需要的时间一般可以由下式表达:
t = N(T_ch + T_mem)
其中,T_ch是芯片组等待时间,而Tmem表示存储器等待时间。因而,加载相同数目的非相关单元所需要的时间为:
t = N/C*(T_ch + T_mem)
这个公式中的C是存储器子系统的吞吐量。
这样一来,在处理非相关数据时,存储器子系统延时的负面影响会很明显地降低,因此性能主要决定于吞吐量。
同样,笔者也在计算机上对两种处理方式进行了测试,处理非相关数据可以提速1.7~2.5倍。