程序的地址空间 stack and heap

最新推荐文章于 2022-11-26 22:44:19 发布

小刚学長

最新推荐文章于 2022-11-26 22:44:19 发布

阅读量575

点赞数

分类专栏： C++

本文链接：https://blog.csdn.net/winafa/article/details/115373121

版权

C++ 专栏收录该内容

26 篇文章 3 订阅

订阅专栏

堆跟栈是个C++老话题了，但做应用程序的时候，也不怎么碰到问题，有时候用堆，有时候又觉得栈更方便点

总之，不要太离谱，都没啥问题，久而久之就不清楚怎么回事，稀里糊涂就过去了。

但，当你发展到一定程度的时候，比如要追求性能的时候，RAM受限的时候，此时就会关注这些细节，这往往也是架构师最基本素质之一

什么是堆？

堆（heap）

一般用于：是程序运行期间动态分配的 malloc/realloc new的空间，相对栈来说这个空间比较大，但也不是无限大（或跟内存大小一致）

堆的生存期随进程持续性，从malloc/realloc new 到free delete一直存在

什么是栈？

栈（stack）

一般用于：函数或代码中的局部变量(非static变量)

栈的生存期随代码块持续性，代码块运行就给你分配空间，代码块结束，就自动回收空间。

值得注意：函数也是存在栈里面的。

堆栈的概念一般好理解，如果还是不能理解，可以参考以下代码：

main()  //函数，放在栈里面
{
    int b;    //栈。stack
    char s[] = "abc";    //栈 stack
    char *p2;    //栈 stack
    char *p3 = "123456";    //123456\0在常量区rodata，p3的栈上stack
    static int c = 0;    //全局（静态）初始化区 data
    p1 = (char*)malloc(10);    //堆 heap
    p2 = (char*)malloc(20);    //分配得来的10和20字节的区域就在堆区
    strcpy(p1,"123456");    //123456\0放在常量区 rodata，编译器可能会将它
}

以上是开胃菜，后面才是重点。

经典win32程序是如何分配地址空间的？

题目还是比较抽象，换个角度：printf("hello world!"); 这个 “hello world”是存放在哪里？堆？栈？

经典win32最大能表示4G的地址，因此，也就最大支持4G内存空间。这4G大概可以分成以下部分：

请注意，内存地址的顺序。

这个也很重要，默认情况下是这样的，当然这些值大小可以在IDE手动修改的。

这里有个地方比较有趣。

从ELF到MMR有多少空间呢？

=(0x40000000-0x08048000)/(1024*1024)=895M

这个数字意味着什么？

意味着，如果我们一直new，最多也只能new 895M的空间（事实上肯定还不到，除了BSS Data ELF会占用以外，你代码其他堆的东西也会占用不少空间）

基于这个事实，我们是否又突然发现：有时候内存是足够的情况下，但new 了几百M 却是失败？对的，就是这个原因。

实际上不是这样的，据说windows下是2：2，也就是说最多2G；linux下是1：3，最多3G

也就是说，如果需要大容量内存的时候，系统会调整虚拟内容地址。但实际情况肯定到不了2G的（实测）

从图中，我们也看见，堆是自下而上的，栈是自上而下，两个是相向的，如果不是特殊情况下，分界线是0x40000000~~

进一步思考：

如果我们程序真的需要更大内存怎么办？

单个进程是有上限的，多个进程上限就是物理内存的上限。

也就是A进程里的内存地址跟B进程里内存地址，都是一样的规格，但即便数字是一样的，也不是指向同一块内存。

好了，再来看看栈。

再来张图：

插播一条知识点：

图中有几处 Random xxx offset，大概的意思是随机偏移

那么问题来了，为什么要随机？不能固定吗？

其实，这也是为了安全考虑：

这是一种安全机制，ASLR（Address Space Layout Randomization），主要防止缓冲区溢出攻击。

也就是说，偶尔缓冲区溢出，也应该问题不大。

还有，就是地址不固定，从而导致无法推算，也在一定程度上保护了程序安全性。但准确来说，也带来调试分析上的麻烦。

Linux通过对栈、内存映射段、堆的起始地址加上随机偏移量来打乱布局，以免恶意程序通过计算获取访问栈、库函数等地址。

嗯，这也有些道理。

那么，除了堆跟栈，其他又是什么？都是干什么的？

先来看下，还有其他什么？

以下内容参考： https://blog.csdn.net/C_Modesty/article/details/106333322

每个进程看到的地址空间都是一样的
.text 都是从 0x80048000开始
内核地址空间都是 0xC0000000 ~ 0xFFFFFFFF
用户栈都是向低地址增长
堆都是向高地址扩展

1.1 0x00000000 ~ 0x80048000

不能给用户访问，这里面是一些C运行库的内容，访问会报 segment fault 错误。

这个结合实际情况：当出现段错误的时候，大概使用了 null指针，也有可能使用了未new的指针

1.2 0xC0000000 ~ 0xFFFFFFFF

内核的逻辑地址，在用户态访问会出错，权限不够；如果向访问，需要切换到内核态，可以通过系统调用等方式；

系统调用代表某个进程运行于内核，此时，相当于该进程可以访问这段内存虚拟地址（实际上只能访问该进程的某个8KB的内核栈）。

1.3 Random stack offset、Random mmap offset、Random brk offset

这些随机值意在防止恶意程序.这是一种安全机制ASLR（Address Space Layout Randomization），主要防止缓冲区溢出攻击。

Linux通过对栈、内存映射段、堆的起始地址加上随机偏移量来打乱布局，以免恶意程序通过计算获取访问栈、库函数等地址。

1.4 Stack

内核空间下面就是用户栈 Stack 地址段，栈的最大范围可以通过 prlimit 命令看到，默认情况下是8MB。

1.5 Memory Mapping Segment

这块地址是用来分配内存区域的，一般是用来把文件映射进内存用的，但是你也可以在这里申请内存空间来使用。

mmap（）系统调用把一个文件映射到 Memory Mapping Segment 内存地址空间中

也可以匿名直接申请一段内存空间使用，mmap（）不一定要在 Memory Mapping Segment

进行申请，你也可以指定任意的内存地址，当然只要不跟已有的虚拟地址冲突就好；这个地址也一定要是000结尾，才能使得页对齐（1KB）。

这块区域是风水宝地，大部分软件的瓶颈在IO这里，通过mmp方式可以大大提高IO访问速度。

1.6 start_brk和brk（program break）

分别标识了堆的起始地址和结束地址。

在Linux中可以通过 brk（）和 sbrk（）这两个函数来改变 program break 的位置。

当我们在程序中调用 malloc（）的时候，一般就是在内部调用 sbrk（）来调整途中 brk 标识的位置向上移动。

当调用 free（）来释放内存空间的时候，传递给 sbrk（）一个负值来使堆的 brk 标识向下移动。

当然， brk（）和sbrk（）所做的工作远不是简单地移动 brk 标识，还要处理将虚拟内存映射到物理内存地址等工作。

glibc 中当申请的内存空间不大于 MMAP_THRESHOLD的时候，malloc（）使用 brk（）/ sbrk（）来调整 brk

标识的位置，这个时候所申请到的空间确实位于图中的 start_brk 和 brk 之间；当所申请的空间大于这个阈值的时候，

malloc（）改用 mmap（）来分配空间，这个时候所申请到的空间就位于图中的 Memory Mapping Segment 这一段内。

1.7 BSS Segment、Data Segment、Text Segment

BSS Segment存放未初始化的静态变量，所以也就是可以随意读写；

可读可写
存储未初始化的全局变量和未初始化的static变量
bss段中数据的生存期随进程持续性
bss段中的数据一般默认为0

Text Segment 其实就是存放二进制可执行代码的位置，所以它的权限是读与可执行；

又称文本段，用来存放指令，运行代码的一块内存空间
此空间大小在代码运行前就已经确定
内存空间一般属于只读，某些架构的代码也允许可写
在代码段中，也有可能包含一些只读的常数变量，例如字符串常量等。

Data Segment 存放的是静态常量，所以该地址段权限是只读。

可读可写
存储初始化的全局变量和初始化的static变量
数据段中数据的生存期是随程序持续性（随进程持续性）
随进程持续性：进程创建就存在，进程死亡就消失

新的进程内存布局（默认进程内存布局）导致了栈空间的固定，而堆区域和MMAP区域共用一个空间，这在很大程度上增长了堆区域的大小。

一般来说，还有rodata区域

只读数据
比如printf语句中的格式字符串和开关语句的跳转表。也就是你所说的常量区。例
如，全局作用域中的constintival=10，ival存放在.rodata段；再如，函数局部作用域中
的printf("Helloworld%d\n",c);语句中的格式字符串"Helloworld%d\n"，也存放在.rodata
段。

int a = 0;//全局初始化区。data
char *p1;//全局未初始化区bss
main()
{
 int b;//栈。stack
 char s[]="abc";//栈stack
 char *p2;//栈stack
 char *p3="123456";//123456\0在常量区rodata，p3的栈上stack
 static int c=0;//全局（静态）初始化区data
 p1 = (char*)malloc(10);//堆heap
 p2 = (char*)malloc(20);//分配得来的10和20字节的区域就在堆区
 strcpy(p1,"123456");//123456\0放在常量区rodata，编译器可能会将它
}