文章目录
一. gcc背后的战友们
1. gcc的介绍
GCC(GNU C Compiler)是编译工具,经过了这么多年的发展,GCC 已经不仅仅能支持 C语言;它现在还支持 Ada 语言、C++ 语言、Java 语言、Objective C 语言、Pascal 语言、COBOL语言,以及支持函数式编程和逻辑编程的 Mercury 语言等。
而 GCC 也不再单只是 GNU C 语言编译器的意思,而是变成了 GNU Compiler Collection 也即是 GNU 编译器家族的意思。
另一方面,说到 GCC 对于操作系统平台及硬件平台支持,概括起来就是一句话:无所不在
2. Binutils——战友一
Binutils是一组二进制程序处理工具,包括:addr2line、ar、objcopy、objdump、as、ld、ldd、readelf、
size 等。这 一组工具 是开发和 调试不可 缺少的工具 ,分别简介如下:
处理工具 | 作用 |
---|---|
addr2line | 将程序地址转换成其所对应的程序源文件及所对应的代码行,也可以得到所对应的函数,帮助调试器在调试的过程中定位对应的源代码位置 |
as | 主要用于汇编 |
ld | 主要用于链接 |
ldd | 可以用于查看一个可执行程序依赖的共享库 |
objcopy | 将一种对象文件翻译成另一种格式,比如将.bin 转换成.elf、或者将.elf 转换成.bin 等 |
objdump | 主要的作用是反汇编 |
readelf | 显示有关 ELF 文件的信息 |
size | 列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总大小等 |
3. C运行库——战友二
C 语言标准主要由两部分组成:一部分描述 C 的语法,另一部分描述 C 标准库。C标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的 printf 函数便是一个 C标准库函数,其原型定义在 stdio 头文件中。
C 语言标准仅仅定义了 C 标准库函数原型,并没有提供实现。因此,C语言编译器通常需要一个 C 运行时库(C Run Time Libray,CRT)的支持。C 运行时库又常简称为 C 运行库。与 C语言类似,C++也定义了自己的标准,同时提供相关支持库,称为 C++运行时库。
二. gcc的详细编译过程
1. 编写代码
为了能够演示编译的整个过程,首先创建一个工作目录test4,然后生成一个 C语言编写的hello.c程序,代码如下
//hello.c
#include <stdio.h>
int main(void)
{
printf("Hello World!\n");
return 0;
}
2. 编译过程
对于这个程序,一步到位的编译指令是:
gcc test.c -o test
实质上,编译过程是分为四个阶段进行的,即预处理(Preprocessing)、编译(Compilation)、汇编(Assembly)和连接(Linking)
2.1 预处理
预处理的过程主要包括以下过程:
(1) 将所有的#define 删除,并且展开所有的宏定义,并且处理所有的条件预编 译指令,比如#if #ifdef #elif #else #endif 等
(2) 处理#include 预编译指令,将被包含的文件插入到该预编译指令的位置
(3) 删除所有注释“//”和“/* */”
(4) 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号
(5)保留所有的#pragma 编译器指令,后续编译过程需要使用它们
- gcc 进行预处理的命令:
gcc -E hello.c -o hello.i
如图,发现输出test.i
文件中存放着test.c
经预处理之后的代码,gcc 的-E
选项,可以让编译器在预处理后停止,并输出预处理结果.
2.2 编译为汇编语言
- 输入
gcc -S hello.i -o hello.s
指令将预处理生成的hello.i
文件编译生成汇编程序hello.s
GCC 的选项-S 使 GCC 在执行完编译后停止,生成汇编程序
2.3 汇编
汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为.o的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相 对于编译过程比较简单,通过调用 Binutils 中的汇编器 as根据汇编指令和处理 器指令的对照表一一翻译即可。
当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成.o 目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部 分了,但是在链接之前还不能执行。
- 输入
gcc -c hello.s -o hello.o
指令将编译生成的hello.s
文件汇编生成目标文件hello.o
- 或者直接调用
Binutils
中的as
将 hello.s 文件汇编生成目标文件,输入命令as -c hello.s -o hello.o
注意:hello.o 目标文件为 ELF(Executable and Linkable Format)格式的可重定向文件
2.4 链接(连接)
gcc 连接器是 gas 提供的,负责将程序的目标文件与所需的所有附加的目标文件连接起来,最终生成可执行文件
链接分为静态链接和动态链接,其要点如下:
(1) 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链 接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:符号解析(把目标文件中符号的定义和引用联系起来)和 重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)
(2)动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统 中把相应动态库加载到内存中去
- 对于生成的
hello.o
,输入命令gcc hello.o -o hello
将其与C标准输入输出库进行连接,最终生成程序hello
然后执行
补充
(1)多个程序文件的编译
通常整个程序是由多个源文件组成的,相应地也就形成了多个编译单元,使用 GCC 能够很好地管理这些编译单元
- 假设有一个由 test1.c 和 test2.c 两个源文件组成的程序,为了对它们进行编译,并最终生成可执行程序 test,可以使用命令
gcc test1.c test2.c -o test
- 如果同时处理的文件不止一个,GCC 仍然会按照预处理、编译和链接的过程依次进行。如果深究起来,上面这条命令大致相当于依次执行如下三条命令:
gcc -c test1.c -o test1.o
、gcc -c test2.c -o test2.o
、gcc test1.o test2.o -o test
(2)检错
gcc -pedantic illcode.c -o illcode
-pedantic 编译选项并不能保证被编译程序与 ANSI/ISO C 标准的完全兼容,它仅仅只能用来帮助Linux 程序员离这个目标越来越近。换句话说,-pedantic 选项能够帮助程序员发现一些不符合 ANSI/ISO C标准的代码,但不是全部,事实上只有 ANSI/ISO C 语言标准中要求进行编译器诊断的那些情况,才有可能被 GCC 发现并提出警告。
除了-pedantic 之外,GCC 还有一些其它编译选项也能够产生有用的警告信息。这些选项大多以-W 开头,其中最有价值的当数-Wall,使用它能够使 GCC 产生尽可能多的警告信息。
gcc -Wall illcode.c -o illcode
GCC 给出的警告信息虽然从严格意义上说不能算作错误,但却很可能成为错误的栖身之所。一个优 秀的 Linux程序员应该尽量避免产生警告信息,使自己的代码始终保持标准、健壮的特性。所以将警告信息当成编码错误来对待,是一种值得赞扬的行为!所以,在编译程序时带上-Werror 选项,那 么 GCC会在所有产生警告的地方停止编译,迫使程序员对自己的代码进行修改,如下:
gcc -Werror test.c -o test
(3)库文件连接
- 开发软件时,完全不使用第三方函数库的情况是比较少见的,通常来讲都需要借助许多函数库的支持才能够完成相应的功能。从程序员的角度看,函数库实际上就是一些头文件(.h)和库文件(so、或lib、dll)的集合。
- 虽然 Linux下的大多数函数都默认将头文件放到/usr/include/目录下,而库文件则放到/usr/lib/目录下;Windows所使用的库文件主要放在 Visual Stido 的目录下的 include 和 lib,以及系统文件夹下。但有的时候,我们要用的库不再这些目录下,所以 GCC 在编译时必须用自己的办法来查找所需要的头文件和库文件。
例如:我们的程序 test.c 是在 linux 上使用 c 连接 mysql,这个时候我们需要去 mysql 官网下载 MySQL Connectors 的 C 库,下载下来解压之后,有一个 include 文件夹,里面包含mysql connectors 的头文件,还有一个 lib 文件夹,里面包含二进制 so 文件 libmysqlclient.so,其中 inclulde 文件夹的路径是/usr/dev/mysql/include,lib 文件夹是/usr/dev/mysql/lib
- 编译成可执行文件
执行gcc –c –I /usr/dev/mysql/include test.c –o test.o
命令编译 test.c 为目标文件 - 链接
把所有目标文件链接成可执行文件:
gcc –L /usr/dev/mysql/lib –lmysqlclient test.o –o test
Linux 下的库文件分为两大类分别是动态链接库(通常以.so 结尾)和静态链接库(通常以.a结尾),二者的区别仅在于程序执行时所需的代码是在运行时动态加载的,还是在编译时静态加载的
- 强制链接时使用静态链接库
默认情况下, GCC 在链接时优先使用动态链接库,只有当动态链接库不存在时才考虑使用静态链接库,如果需要的话可以在编译时加上-static 选项,强制使用静态链接库。
在/usr/dev/mysql/lib 目录下有链接时所需要的库文件 libmysqlclient.so 和 libmysqlclient.a,为了让GCC 在链接时只用到静态链接库,使用下面的命令:gcc –L /usr/dev/mysql/lib –static –lmysqlclient test.o –o test
静态库链接时搜索路径顺序:
- ld 会去找 GCC 命令中的参数-L
- 再找 gcc 的环境变量 LIBRARY_PATH
- 再找内定目录 /lib /usr/lib /usr/local/lib 这是当初 compile gcc 时写在程序内的
动态链接时、执行时搜索路径顺序:
- 编译目标代码时指定的动态库搜索路径
- 环境变量 LD_LIBRARY_PATH 指定的动态库搜索路径
- 配置文件/etc/ld.so.conf 中指定的动态库搜索路径
- 默认的动态库搜索路径/lib
- 默认的动态库搜索路径/usr/lib
有关环境变量:
LIBRARY_PATH 环境变量:指定程序静态链接库文件搜索路径
LD_LIBRARY_PATH 环境变量:指定程序动态链接库文件搜索路径
三. ELF文件的分析
1. ELF文件的段
ELF 文件格式如下图所示,位于 ELF Header 和 Section Header Table 之间的都是段
一个典型ELF文件包含的段 | 含义 |
---|---|
.text | 已编译程序的指令代码段 |
.rodata | :ro 代表 read only,即只读数据(例如常数 const) |
.data | 已初始化的 C 程序全局变量和静态局部变量 |
.bss | 未初始化的 C 程序全局变量和静态局部变量 |
.debug | 调试符号表,调试器用此段的信息帮助调试 |
- 使用 readelf -S 查看其各个 section 的信息
例如:输入readelf -S hello
命令
2. 反汇编ELF
由于 ELF 文件无法被当做普通文本文件打开,如果希望直接查看一个 ELF 文件包含的指令和数据,需要使用反汇编的方法。
使用objdump -D 对其进行反汇编如下
- 输入命令
objdump -D hello
进行反汇编
- 使用
objdump -S
将其反汇编并且将其C语言源代码混合显示出来 - 输入命令
gcc -o hello -g hello.c
、objdump -S hello
四. 总结
本文介绍了gcc的“战友们”,说明gcc并不是一个人在战斗;以及gcc编译的详细过程,能够帮助我们更深入的了解gcc编译的过程,让我们能更好的理解gcc编译,对我们今后学习奠定基础;还有通过对ELF文件的分析,解释了汇编和反汇编。希望本文能够给读者们带来帮助~