《深入浅出计算机组成原理》学习笔记 Day3

最新推荐文章于 2024-06-15 09:59:21 发布

Balaaam

最新推荐文章于 2024-06-15 09:59:21 发布

阅读量551

点赞数

分类专栏：计算机组成原理文章标签：学习算法 c++

本文链接：https://blog.csdn.net/weixin_50697073/article/details/128724005

版权

计算机组成原理专栏收录该内容

23 篇文章 0 订阅

订阅专栏

ELF和静态链接

1. 程序执行：编译、链接和装载

有这么两个C文件：

\\ add.c
int add(int a, int b) {
	return a + b;
}

\\ test.c
#include <stdio.h>
int main() {
	int a = 1;
	int b = 2;
	int c = add(a, b);
	printf("c = %d \n", c);
	return 0;
}

现在我们通过 gcc 命令来分别编译这两个文件，并用 objdump 命令来查看其汇编代码。

gcc -c add.c
gcc -c test.c
objdump -d -M intel -S add.o
objdump -d M intel -S test.o

add_lib.o:     file format elf64-x86-64
Disassembly of section .text:
0000000000000000 <add>:
   0:   55                      push   rbp
   1:   48 89 e5                mov    rbp,rsp
   4:   89 7d fc                mov    DWORD PTR [rbp-0x4],edi
   7:   89 75 f8                mov    DWORD PTR [rbp-0x8],esi
   a:   8b 55 fc                mov    edx,DWORD PTR [rbp-0x4]
   d:   8b 45 f8                mov    eax,DWORD PTR [rbp-0x8]
  10:   01 d0                   add    eax,edx
  12:   5d                      pop    rbp
  13:   c3                      ret


link_example.o:     file format elf64-x86-64
Disassembly of section .text:
0000000000000000 <main>:
   0:   55                      push   rbp
   1:   48 89 e5                mov    rbp,rsp
   4:   48 83 ec 10             sub    rsp,0x10
   8:   c7 45 fc 0a 00 00 00    mov    DWORD PTR [rbp-0x4],0xa
   f:   c7 45 f8 05 00 00 00    mov    DWORD PTR [rbp-0x8],0x5
  16:   8b 55 f8                mov    edx,DWORD PTR [rbp-0x8]
  19:   8b 45 fc                mov    eax,DWORD PTR [rbp-0x4]
  1c:   89 d6                   mov    esi,edx
  1e:   89 c7                   mov    edi,eax
  20:   b8 00 00 00 00          mov    eax,0x0
  25:   e8 00 00 00 00          call   2a <main+0x2a>
  2a:   89 45 f4                mov    DWORD PTR [rbp-0xc],eax
  2d:   8b 45 f4                mov    eax,DWORD PTR [rbp-0xc]
  30:   89 c6                   mov    esi,eax
  32:   48 8d 3d 00 00 00 00    lea    rdi,[rip+0x0]        # 39 <main+0x39>
  39:   b8 00 00 00 00          mov    eax,0x0
  3e:   e8 00 00 00 00          call   43 <main+0x43>
  43:   b8 00 00 00 00          mov    eax,0x0
  48:   c9                      leave  
  49:   c3                      ret

当我们想要执行这两个文件时，会遇到程序格式不正确的错误。

原因是 add.o 和 test.o 都不是一个可执行文件，而是目标文件。只有通过链接器把多个目标文件以及调用的各种函数库链接起来，才能得到一个可执行文件。

重新生成可执行文件：

$ gcc -o test test.o add.o
$ ./test
c = 3

实际上，整个生成机器码的过程可以分成两个部分：

第一个部分由编译（Compile）、汇编（Assemble）以及链接（Link）三个阶段组成。在这三个阶段完成后，我们就生成了一个可执行文件。
第二个部分，通过装载器（Loader）把可执行文件装载（Load）到内存中，CPU 从内存中读取指令和数据，来执行程序。

在这里插入图片描述

2. ELF 格式和链接

在Linux下，可执行文件和目标文件所使用的都是一种叫 ELF（Executable and Linkable File Format）的文件格式，即可执行与可链接文件格式。

在这里插入图片描述

ELF 文件格式把各种信息，分成一个一个的 Section 保存起来。ELF 有一个基本的文件头（File Header），用来表示这个文件的基本属性，比如是否是可执行文件，对应的 CPU、操作系统等等。除了这些基本属性之外，大部分程序还有这么一些 Section：

首先是.text Section，也叫作代码段或者指令段（Code Section），用来保存程序的代码和指令；
接着是.data Section，也叫作数据段（Data Section），用来保存程序里面设置好的初始化数据信息；
然后就是.rel.text Secion，叫作重定位表（Relocation Table）。重定位表里，保留的是当前的文件里面，哪些跳转地址其实是我们不知道的。比如上面的 test.o 里面，我们在 main 函数里面调用了 add 和 printf 这两个函数，但是在链接发生之前，我们并不知道该跳转到哪里，这些信息就会存储在重定位表里；
最后是.symtab Section，叫作符号表（Symbol Table）。符号表保留了我们所说的当前文件里面定义的函数名称和对应地址的地址簿。

链接器会扫描所有输入的目标文件，然后把所有符号表里的信息收集起来，构成一个全局的符号表。然后再根据重定位表，把所有不确定要跳转地址的代码，根据符号表里面存储的地址，进行一次修正。最后，把所有的目标文件的对应段进行一次合并，变成了最终的可执行代码。这也是为什么，可执行文件里面的函数调用的地址都是正确的。

在这里插入图片描述