很多情况下,多个线程需要对一块内存进行大量的写操作,肯定是需要同步机制的支持的。即使是简单的加减法也需要原子锁的同步支持,其他情况下可能还需要其他更重量级锁的支持。
除此之外,不同的CPU对同一块内存的写操作也会造成CPU之间的缓存同步,这会大大加重总线负担从而影响程序的效率。详细内容可以参考这篇
这种情况下,可以对这块共享内存进行拆分,既每一个CPU都维护自己的一块内存,这个内存的结构和共享内存是一模一样的,但里面的数据只代表了当前CPU计算的结果。当需要最终数据时,可以将每个CPU维护的内存加起来进行统计。这种特别适合统计类的信息,提升效果较为明显。
这里可以写个简单的代码来看下效果。
首先是两个线程通过原子锁操作同一个变量:
#include "stdafx.h"
#include "windows.h"
LONG Data1 = 0;
DWORD
WINAPI
Thread1(
LPVOID lpThreadParameter
) {
DWORD Start = GetTickCount();
for (ULONG i = 0;i < 10000000;i++)
InterlockedAdd(&Data1, 1);
printf("Time:%d\n", GetTickCount() - Start);
return 1;
}
DWORD
WINAPI
Thread2(
LPVOID lpThreadParameter
) {
for (ULONG i = 0;i < 10000000;i++)
InterlockedAdd(&Data1, 1);
return 1;
}
int main()
{
DWORD Tid;
CreateThread(NULL, 0, Thread1, NULL, 0, &Tid);
CreateThread(NULL, 0, Thread2, NULL, 0, &Tid);
system("pause");
return 0;
}
可以看到时间消耗:
然后是同时原子操作不同的变量,注意这时变量是在堆中分配的,这里两个变量在内存里距离恰巧比较远。在具体使用这种手段时,两个变量之间的距离至少是L1CacheLine的大小,否则并不能起不到效果:
#include "stdafx.h"
#include "windows.h"
PLONG pData1;
PLONG pData2;
DWORD
WINAPI
Thread1(
LPVOID lpThreadParameter
) {
DWORD Start = GetTickCount();
for (ULONG i = 0;i < 10000000;i++)
InterlockedAdd(pData1, 1);
printf("Time:%d\n", GetTickCount() - Start);
return 1;
}
DWORD
WINAPI
Thread2(
LPVOID lpThreadParameter
) {
for (ULONG i = 0;i < 10000000;i++)
InterlockedAdd(pData2, 1);
return 1;
}
int main()
{
DWORD Tid;
pData1 = (PLONG)malloc(sizeof(LONG));
pData2 = (PLONG)malloc(sizeof(LONG));
CreateThread(NULL, 0, Thread1, NULL, 0, &Tid);
CreateThread(NULL, 0, Thread2, NULL, 0, &Tid);
system("pause");
return 0;
}
可以看到,由于没有了CPU间的缓存同步,性能提升了不少:
然后再将原子锁去除,直接对变量进行操作,性能又会有不少的提升:
那么最后一个问题,分片数量具体取值多少呢,两块分片的距离至少多大呢?在Windows中可以参考如下两个值:
- 分片数量:GetMaximumProcessorCount(0)
- 分片距离:SYSTEM_CACHE_ALIGNMENT_SIZE