GCC 编译器背后的故事

GCC 编译器背后的故事

一.准备工作

先创建一 个工作目录 test0,然后
用文本编辑器生成一个 C 语言编写的简单 Hello.c 程序为示例,其源代码如下所
示:

#include <stdio.h>

int main(void)
{
        printf("Hello World! \n");
        return 0;
}

二.编译过程

1.预处理

预处理的过程主要包括以下过程:
(1) 将所有的#define 删除,并且展开所有的宏定义,并且处理所有的条件预编
译指令,比如#if #ifdef #elif #else #endif 等。
(2) 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置。
(3) 删除所有注释“//”和“/* */”。
(4) 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
(5) 保留所有的#pragma 编译器指令,后续编译过程需要使用它们。
使用 gcc 进行预处理的命令如下:
$ gcc -E hello.c -o hello.i
在这里插入图片描述

2.编译

编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及
优化后生成相应的汇编代码。
使用 gcc 进行编译的命令如下:
gcc -S hello.i -o hello.s
在这里插入图片描述

3.汇编

汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为.o
的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相
对于编译过程比较简单,通过调用 Binutils 中的汇编器 as 根据汇编指令和处理
器指令的对照表一一翻译即可。
当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成.o 目标
文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部
分了,但是在链接之前还不能执行。
使用 gcc 进行汇编的命令如下:
gcc -c hello.s -o hello.o
在这里插入图片描述

4.链接

链接也分为静态链接和动态链接,其要点如下:
(1) 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行
文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链
接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完
成的主要任务是:符号解析(把目标文件中符号的定义和引用联系起来)和
重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
(2) 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统
中把相应动态库加载到内存中去。
 在 Linux 系 统中,gcc 编 译链 接时 的动 态库 搜索 路径 的 顺序 通常 为:首 先从 gcc 命 令的
参 数-L 指 定的 路径 寻找 ;再 从环 境变 量 LIBRARY_PATH 指 定的 路径 寻址;再 从默 认路 径
/lib、/usr/lib、 /usr/local/lib 寻找 。
 在 Linux 系 统中,执 行二 进制 文件 时的 动态 库搜 索路 径的 顺序 通常 为:首 先搜 索编 译目
标 代码 时指 定的 动态 库搜 索路 径;再 从环 境变 量 LD_LIBRARY_PATH 指 定的 路径 寻址;再
从 配置 文件/etc/ld.so.conf 中 指定 的动 态库 搜索 路径 ;再 从默 认路 径/lib、/usr/lib
寻找 。
 在 Linux 系统 中, 可以 用 ldd 命令 查看 一个 可执 行程 序依 赖的 共享 库。 由于链接动态库和静态库的路径可能有重合,所以如果在路径中有同名的静态库文件和动
态库文件,比如 libtest.a 和 libtest.so,gcc 链接时默认优先选择动态库,会链接
libtest.so,如果要让 gcc 选择链接 libtest.a 则可以指定 gcc 选项-static,该选项会强
制使用静态库进行链接。以 Hello World 为例:
如果使用命令“gcc hello.c -o hello”则会使用动态库进行链接,生成的
ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库
动态链接:
在这里插入图片描述
静态链接:
在这里插入图片描述
对比两种连接方式可知,静态链接生成的文件远大于动态链接。
运行hello:
在这里插入图片描述

三.分析 ELF 文件

1.ELF 文件的段

ELF 文件格式如下图所示,位于 ELF Header 和 Section Header Table 之间的都
是段(Section)。一个典型的 ELF 文件包含下面几个段:
.text:已编译程序的指令代码段。
.rodata:ro 代表 read only,即只读数据(譬如常数 const)。
.data:已初始化的 C 程序全局变量和静态局部变量。
.bss:未初始化的 C 程序全局变量和静态局部变量。
.debug:调试符号表,调试器用此段的信息帮助调试。
使用命令 readelf -S hello可以查看其各个 section 的信息

在这里插入图片描述

2.反汇编 ELF

由于 ELF 文件无法被当做普通文本文件打开,如果希望直接查看一个 ELF 文件包
含的指令和数据,需要使用反汇编的方法。
使用 objdump -D 对其进行反汇编如下:
在这里插入图片描述
在这里插入图片描述
或者使用 objdump -S 将其反汇编并且将其 C 语言源代码混合显示出来
在这里插入图片描述
在这里插入图片描述

用nasm汇编编译器编译生成执行程序

1.下载nasm汇编编译器

因为ubuntu并没有nasm汇编编译器,则需要自己下载
使用命令:sudo apt-get install nasm
在这里插入图片描述

2.使用nasm编译hello.asm文件

在这里插入图片描述
hello.asm代码:

; hello.asm 
section .data            ; 数据段声明
        msg db "Hello, world!", 0xA     ; 要输出的字符串
        len equ $ - msg                 ; 字串长度
section .text            ; 代码段声明
global _start            ; 指定入口函数
_start:                  ; 在屏幕上显示一个字符串
        mov edx, len     ; 参数三:字符串长度
        mov ecx, msg     ; 参数二:要显示的字符串
        mov ebx, 1       ; 参数一:文件描述符(stdout) 
        mov eax, 4       ; 系统调用号(sys_write) 
        int 0x80         ; 调用内核功能
                         ; 退出程序
        mov ebx, 0       ; 参数一:退出代码
        mov eax, 1       ; 系统调用号(sys_exit) 
        int 0x80         ; 调用内核功能

3.生成可执行文件并执行

在这里插入图片描述

总结

使用汇编编译器生成的可执行文件很小在这里插入图片描述
远小于C代码的编译生成的程序大小

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值