C代码是如何加载到系统执行的?

C语言代码–汇编代码–机器码

我们大家都知道C语言代码先变成汇编,再变成机器码,可是这个过程不是一蹴而就,它们经历了什么?
下面我举个列子。

// add_lib.c 
int add(int a, int b) 
{ return a+b; }
// link_example.c 
#include <stdio.h>
 int main() 
 { int a = 10;
  int b = 5; 
  int c = add(a, b);
   printf("c = %d\n", c); 
 }

这是两端代码经过编译后,会成为两个目标文件,而在link_example.c文件里main函数调用add_lib.c 文件里的add方法,在执行的时候他会找不到,因为他们是两个单独的文件。

咋办呐?

通过链接器(Linker)把多个目标文件以及调用的各种函数库链接起来,我们才能得到一个可执行文件。

实际上,“C语言代码–汇编代码–机器码” 这个过程,在我们的计算机上进行的时候是由两部分组成的。

  • 第一个部分由编译(Compile)、汇编(Assemble)以及链接(Link)三个阶段组成。在这三个阶段完成之 后,我们就生成了一个可执行文件。
  • 第二部分,我们通过装载器(Loader)把可执行文件装载(Load)到内存中。CPU从内存中读取指令和数 据,来开始真正执行程序。
    在这里插入图片描述

ELF格式和链接

在Linux下, 可执行文件和目标文件所使用的都是一种叫EELLFF(Execuatable and Linkable File Format)的文件格式,中 文名字叫可可执执行行与与可可链链接接文文件件格格式式,这里面不仅存放了编译成的汇编指令,还保留了很多别的数据。

而Windows的可执行文件格式是一种叫作PE(Portable Executable Format)的文件格式。

ELF文件格式把各种信息,分成一个一个的Section保存起来。ELF有一个基本的文件头(File Header),用 来表示这个文件的基本属性,比如是否是可执行文件,对应的CPU、操作系统等等。除了这些基本属性之 外,大部分程序还有这么一些Section:

  • 首先是.text Section,也叫作代代码码段段或者指令段(Code Section),用来保存程序的代码和指令;
  • 接着是.data Section,也叫作数数据据段段(Data Section),用来保存程序里面设置好的初始化数据信息;
  • 然后就是.rel.text Secion,叫作重重定定位位表表(Relocation Table)。重定位表里,保留的是当前的文件里 面,哪些跳转地址其实是我们不知道的。比如上面的 link_example.o 里面,我们在main函数里面调用了 add 和 printf 这两个函数,但是在链接发生之前,我们并不知道该跳转到哪里,这些信息就会存储在重 定位表里;
  • 最后是.symtab Section,叫作符符号号表表(Symbol Table)。符号表保留了我们所说的当前文件里面定义的 函数名称和对应地址的地址簿

链接器会扫描所有输入的目标文件,然后把所有符号表里的信息收集起来,构成一个全局的符号表。然后再 根据重定位表,把所有不确定要跳转地址的代码,根据符号表里面存储的地址,进行一次修正。最后,把所 有的目标文件的对应段进行一次合并,变成了最终的可执行代码。这也是为什么,可执行文件里面的函数调 用的地址都是正确的。

在链接器把程序变成可执行文件之后,要装载器去执行程序就容易多了。装载器不再需要考虑地址跳转的问 题,只需要解析 ELF 文件,把对应的指令和数据,加载到内存里面供CPU执行就可以了。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值