程序性能优化手段-共享数据的拆分

最新推荐文章于 2023-11-13 00:26:35 发布

yeshahayes

最新推荐文章于 2023-11-13 00:26:35 发布

阅读量252

点赞数

分类专栏：性能优化

本文链接：https://blog.csdn.net/yeshahayes/article/details/79720185

版权

性能优化专栏收录该内容

3 篇文章 0 订阅

订阅专栏

很多情况下，多个线程需要对一块内存进行大量的写操作，肯定是需要同步机制的支持的。即使是简单的加减法也需要原子锁的同步支持，其他情况下可能还需要其他更重量级锁的支持。
除此之外，不同的CPU对同一块内存的写操作也会造成CPU之间的缓存同步，这会大大加重总线负担从而影响程序的效率。详细内容可以参考这篇
这种情况下，可以对这块共享内存进行拆分，既每一个CPU都维护自己的一块内存，这个内存的结构和共享内存是一模一样的，但里面的数据只代表了当前CPU计算的结果。当需要最终数据时，可以将每个CPU维护的内存加起来进行统计。这种特别适合统计类的信息，提升效果较为明显。
这里可以写个简单的代码来看下效果。
首先是两个线程通过原子锁操作同一个变量：

#include "stdafx.h"
#include "windows.h"

LONG Data1 = 0;

DWORD
WINAPI 
Thread1(
    LPVOID lpThreadParameter
) {
    DWORD Start = GetTickCount();

    for (ULONG i = 0;i < 10000000;i++)
        InterlockedAdd(&Data1, 1);

    printf("Time:%d\n", GetTickCount() - Start);

    return 1;
}

DWORD
WINAPI
Thread2(
    LPVOID lpThreadParameter
) {
    for (ULONG i = 0;i < 10000000;i++)
        InterlockedAdd(&Data1, 1);

    return 1;
}

int main()
{

    DWORD Tid;

    CreateThread(NULL, 0, Thread1, NULL, 0, &Tid);

    CreateThread(NULL, 0, Thread2, NULL, 0, &Tid);

    system("pause");

    return 0;
}

可以看到时间消耗：
这里写图片描述
然后是同时原子操作不同的变量，注意这时变量是在堆中分配的，这里两个变量在内存里距离恰巧比较远。在具体使用这种手段时，两个变量之间的距离至少是L1CacheLine的大小，否则并不能起不到效果：

#include "stdafx.h"
#include "windows.h"

PLONG pData1;
PLONG pData2;

DWORD
WINAPI 
Thread1(
    LPVOID lpThreadParameter
) {

    DWORD Start = GetTickCount();

    for (ULONG i = 0;i < 10000000;i++)
        InterlockedAdd(pData1, 1);

    printf("Time:%d\n", GetTickCount() - Start);

    return 1;

}

DWORD
WINAPI
Thread2(
    LPVOID lpThreadParameter
) {

    for (ULONG i = 0;i < 10000000;i++)
        InterlockedAdd(pData2, 1);

    return 1;

}

int main()
{

    DWORD Tid;

    pData1 = (PLONG)malloc(sizeof(LONG));
    pData2 = (PLONG)malloc(sizeof(LONG));

    CreateThread(NULL, 0, Thread1, NULL, 0, &Tid);

    CreateThread(NULL, 0, Thread2, NULL, 0, &Tid);

    system("pause");

    return 0;
}

可以看到，由于没有了CPU间的缓存同步，性能提升了不少：
这里写图片描述
然后再将原子锁去除，直接对变量进行操作，性能又会有不少的提升：

那么最后一个问题，分片数量具体取值多少呢，两块分片的距离至少多大呢？在Windows中可以参考如下两个值：
- 分片数量：GetMaximumProcessorCount(0)
- 分片距离：SYSTEM_CACHE_ALIGNMENT_SIZE

yeshahayes

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
程序性能优化手段-共享数据的拆分

很多情况下，多个线程需要对一块内存进行大量的写操作，肯定是需要同步机制的支持的。即使是简单的加减法也需要原子锁的同步支持，其他情况下可能还需要其他更重量级锁的支持。除此之外，不同的CPU对同一块内存的写操作也会造成CPU之间的缓存同步，这会大大加重总线负担从而影响程序的效率。详细内容可以参考这篇这种情况下，可以对这块共享内存进行拆分，既每一个CPU都维护自己的一块内存，这个内存...
复制链接

扫一扫

专栏目录