多线程优化——Cache Align

最新推荐文章于 2025-09-19 18:04:31 发布

yxc135

最新推荐文章于 2025-09-19 18:04:31 发布

阅读量4.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：并行计算 C++ Linux 文章标签：多线程 cache align 缓存对齐优化

本文链接：https://blog.csdn.net/yxc135/article/details/30230727

本文探讨了多线程程序中由于缓存对齐问题导致的性能瓶颈。当多个线程更新同一cache line时，缓存同步开销会显著影响效率。通过实例分析，说明了一个未进行Cache Align的多线程程序与单线程程序的性能对比，并解释了time命令的输出含义。最后，介绍了如何使用posix_memalign进行内存对齐以优化多线程程序，以提高性能。

大部分情况下，使用N个线程的速度并不是等量任务单线程的1/N，这里面有很多原因，比如创建线程、线程调度的开销，CPU/核的数量不够多导致N个任务不能完全并行，再或者，其它非任务线程占用CPU。

还有一个不容忽视的原因就是，多个线程更新同一个cache line，导致多个核的缓存同步占用了大量时间。

这是一种隐藏地很深的原因，比如下面我遇到的情况：

首先是一个单线程程序：

#include <stdio.h>
#include <stdlib.h>

unsigned long iteration = 20000000000;
unsigned long* data_array;

int main() {
	data_array = (unsigned long*)malloc(sizeof(unsigned long)*1);
	*data_array = 0;
	while (*data_array < iteration)
		(*data_array)++;
	
	free(data_array);
}

它计算20000000000次，它的耗时：

yxc@RealBox:~/Desktop/test$ time ./single 

real	0m39.234s
user	0m39.178s
sys	0m0.000s

然后是一个两个线程的多线程版本，每个线程执行1 0000000000计算：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

yxc135

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

C++性能优化 —— TCMalloc的原理与使用

2401_86353562的博客

02-10

1194

TCMalloc(Thread-Caching Malloc，线程缓存的malloc）是Google开发的内存分配算法库，最初作为Google性能工具库 perftools 的一部分，提供高效的多线程内存管理实现，用于替代操作系统的内存分配相关的函数（malloc、free，new，new[]等），具有减少内存碎片、适用于多核、更好的并行性支持等特性。

系统性能优化——Linux系统上运用DMA实现memcpy

fy2412955857的博客

05-21

3162

DMA（Direct Memory Access）是一种高效的数据传输方式，允许某些硬件子系统在不需要CPU介入的情况下直接访问系统内存。高效性：通过DMA，数据可以直接在内存和I/O设备之间传输，而不需要经过CPU。这样可以减少CPU的负担，使其可以处理其他任务。自主性：一旦CPU初始化了传输操作，DMA控制器就会接管总线控制权，自行完成数据传输任务。这意味着在传输过程中，CPU可以并行执行其他操作。高速性：DMA通常用于高速数据传输，特别是在大量数据的移动时，能够显著提高系统的吞吐量。硬件控制。

参与评论您还未登录，请先登录后发表或查看评论

CPU缓存行对齐优化实战指南

技术分享

07-29

1201

本文深入探讨了CPU缓存行优化技术，揭示了伪共享问题对程序性能的严重影响。通过分析缓存体系架构和数据局部性原理，文章指出不当的数据布局可能导致性能下降高达10倍。核心内容包括：1）缓存行工作原理及伪共享机制，2）使用alignas和C++17特性的缓存行对齐技巧，3）通过结构体重排优化数据局部性。实验数据表明，正确应用这些技术可使多线程程序性能提升8倍。文章提供了从理论到实践的完整优化方案，帮助开发者解决内存密集型应用中的性能瓶颈问题。

CPU cache 与内存对齐

热门推荐

zhang_shuai_2011的专栏

07-25

2万+

一. Cache Cache一般来说，需要关心以下几个方面 1）Cache hierarchy Cache的层次，一般有L1, L2, L3 （L是level的意思）的cache。通常来说L1，L2是集成在CPU里面的（可以称之为On-chip cache），而L3是放在CPU外面（可以称之为Off-chip cache）。当然这个不是绝对的，不同CPU的做法可能会不太一样。这里面应该

多线程的cache调优

wujianyongw4的博客

08-31

2554

一般使用多线程是希望它能带来比单线程更高的效率但是事实上常常事与愿违，一个粗糙的多线程可能得到比单线程更差的性能。其中的原因可能是锁竞争也可能是调度，本文重点讨论cache对多线程的影响。举个简单的例子：我的机器上CPU拓扑：我有四个cpu但是每两个CPU是共享一级二级cache的，这个对编程影响很大。cache line是64B。硬件上知道这些就好。演示程序很简单，计算...

多线程缓存优化思想

u010548226的博客

06-06

242

1.背景题库随机生成N张试卷，每张试卷M个题目,每个题目要到数据库下载相应的图片，而且在N张试卷的 N*M 个题目中会存在很多相同的题目。这就给我们可以设置缓存大大优化处理速度。 2.多线程优化 N张试卷思想 //生成文档的线程池 private static ExecutorService docMakeService ...

cache line 优化

dodobear的小窝窝

08-27

1202

多线程编程时，为了避免锁，有时会采用数据多份copy的方式，但是如果把这些数据放在了同一个cache line里面，性能得不到提高，是因为cache line的false sharing问题，可以看下这篇文章http://software.intel.com/en-us/articles/avoiding-and-identifying-false-sharing-among-threads/

【多线程】-cpu-Cache模型和java内存模型（全面解析）

知识追寻者(Inheriting the spirit of open source, Spreading technology knowledge;)

11-05

400

你的模样好特别，好抽象，在夜深人静的时候，总会想起黄昏下我与你擦肩而过的背影；

iOS多线程——GCD底层探索上

Z1591090的博客

08-03

743

准备开源的libdispatch下载地址查找 GCD 源码来到工程，我们跳转查看dispatch_async如下：只是提供了一个对外的接口。 #ifdef __BLOCKS__ API_AVAILABLE(macos(10.6), ios(4.0)) DISPATCH_EXPORT DISPATCH_NONNULL_ALL DISPATCH_NOTHROW void dispatch_async(dispatch_queue_t queue, dispatch_block_t block); #end

【高并发内存池——项目】central cache 讲解

最新发布

weixin_54114700的博客

09-19

808

public:static CentralCache* GetInstance() // 单例模式// 获取一个非空的span// 从中心缓存获取一定数量的对象给thread cacheprivate:// 跨度链表数组private:CentralCache() {} // 私有构造函数// 禁止拷贝// 单例实例CentralCache采用单例模式设计，确保整个进程中只有一个实例。它维护了一个SpanList数组，每个元素对应不同大小的内存块。

Cache地址对齐

qq_41661593的博客

12-24

1318

Cache是高速缓冲存储器，对Cache进行操作都要通过地址，因此掌握地址的对齐方式显得尤为重要，文中介绍了Cache地址的字节对齐方式以及地址对齐对burst操作的影响。

CACHE_LINE_ALIGN的作用

zhang_shuai_2011的专栏

09-24

1544

看到过CACHE_LINE_ALIGN很多此，今天仔细研究了下其中的

数据内存对齐

qq_40627648的博客

11-24

841

对于数据对齐，很多人都是知其一，而不知其二。比如他听说过内存对齐和其大概的作用，但是却不知道cache对齐以及对齐到底有什么作用，更不了解怎么能更好的对结构进行内存布局以提高性能，在本文，你会得到解答。以下讨论的概念性的东西应该都是适用于所有系统的，但是实际操作都是linux系统做的。讨论基于单线程处理，目的是为了简化讨论，简化测试，但并不影响对理论的验证。最后附上验证源码以及其解释。 ...

____cacheline_aligned和____cacheline_aligned_in_smp

行善之人必有余庆

11-14

5526

这两个都属于GCC扩展函数。 ____cacheline_aligned instructs the compiler to instantiate a struct or variable at an address corresponding to the beginning of an L1 cache line, for the specific architecture, i.e

CPU cache知识四 —— 为什么要cache line对齐

06-11

4586

What does “cacheline aligned” mean? CPU caches transfer data from and to main memory in chunks(一块) called cache lines; a typical size for this seems to be 64 bytes. Data that are located closer to each other than this(this指64B) may end up on the same cac.

CPU高速缓存行对齐和代码优化

yizhiniu_xuyw的专栏

06-06

1570

关于内存字节对齐：https://blog.csdn.net/yizhiniu_xuyw/article/details/109622878 CacheLine 众所周知，计算机将数据从主存读入Cache时，是把要读取数据附近的一部分数据都读取进来这样一次读取的一组数据就叫做CacheLine，每一级缓存中都能放很多的CacheLine 两种方法查看： 1.cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size 2.ca.

编程中，cache_align 用在哪些场合？

余璜的技术博客

05-09

1216

内核 per_cpu 结构里 struct X { int x,y,z; .... } CACHE_ALIGNED per_cpu[NR_CPUS] 这是为了各个 cpu 操作自己的 X 结构时不要影响别的 cpu 的 cache 多线程队列 Queue { QueueItem items_[N] int push_ CACHE_ALIGN; int pop_ CACHE_ALIGNED; } 另外，如果 Queue 很复杂，成员很多，也可以考虑把 push_、pop_ 中间插入其它

为什么需要 Cache Line Size 对齐?

本末实验室

01-13

845

我们假设一个 Cache Line 的 Size 是 64 Byte，例如。

线程安全的简单的通用的cache

wintree的专栏

08-31

1711

template class StupidCacheKV { private: map cache; mutable sox::mutex StupidCacheMutex; public: void set(const string& key, const T & value) { sox::scope_lock lock(StupidCacheMutex); cache[k

LabVIEW探索：多线程设计与优化

通过解决这些问题，学员不仅可以深化理解多线程概念，还能更好地运用到实际项目中，优化程序性能。总结来说，LabVIEW与多线程的结合是现代工程设计中不可或缺的一部分，掌握这一技能对于提高效率、简化复杂系统...