本节主要介绍一下程序的预处理阶段和编译阶段。
预处理
一个C/C++程序转化成可执行文件,第一步便是预处理。那么预处理阶段究竟干了些什么事呢?
其实预处理阶段主要做了宏命令展开和文本替换这些工作,具体如下:
1)头文件展开:将#include包含的文件插入到该指令位置;
2)宏展开:展开所有的宏定义,并删除#define
3)条件编译:处理所有的条件预编译指令:#if、#ifdef、#else
4)删除注释
5)添加行号和文件名标识:编译调试时显示行号信息
6) 保留#pragma命令
那么为什么需要预处理这个过程呢?其实就是为了编程方便,使代码能过兼容各个平台和处理器架构,从而最大程度的复用代码。
对源文件进行预处理生成的是.i文件。下图是一个c文件预处理后的文件:(使用的命令是:gcc -E main.c -o main.i)
大家可以仔细看看变成.i的文件后那些地方发生了变化。
下面简单介绍一下这个#pragma命令。
用途
• 设定编译器状态
• 指示编译器完成一些特定的动作
• 使用格式
• #pragma pack([n]):指示结构体和联合成员的对齐方式
• #pragma message(“string”):编译信息输出窗口打印文本信息
• #pragma warning:有选择地改变编译器的警告信息行为
• #pragma once:在头文件里加入这条指令,防止头文件多次编译
编译
一、从源文件到汇编文件
c程序源文件经过编译输出汇编文件、目标文件等,那么从高级语言到低级语言,程序是怎么变化的呢?
– 程序语句、函数>代码段
– 变量、常量>数据段、BSS段、rodata段
– 各种辅助信息>符号表、重定位表…
编译的第一阶段:词法分析
该阶段主要由词法扫描器完成,比如lex词法扫描器,词法扫描器从左到右,一个一个字符的读入源程序,然后对源程序的字符流进行扫描,分解成一系列记号:token;最后将标识符存到符号表,将数字、字符串存放到字符串表。词法扫描器采用有限状态机去解析并识别这些token、分界符、结束符。
常见的token记号有:
– 关键字、标识符(函数名、变量名、标号等)、
– 字面量(数字、字符串等)、
– 特殊字符(运算符等)
– 分界符(分号、逗号等)
举例:
语句:sum = a + b/c ;
包含8个记号:”sum”、”=”、”a”、”+”、”b”、”/”、”c”、” ;”
编译第二阶段:语法分析
语法分析使用专门的语法分析工具:yacc,对输入序列进行分析,构建出语法树;语法分析器将前阶段产生的token序列进行语法分析,看是否构成一个语法上正确的程序,分解成语法短语(程序、语句、表达式等), 语法短语用语法树表示,是一种树形结构,不再是线性序列。
编译第三阶段:语义分析
本阶段使用语义分析器,主要是检查语法分析输出的语句、程序、表达式有没有错误,如果源代码语义上没有问题,就会接下来进入下一阶段。经过语义分析后,整个语法树的表达式都被标识了类型。语义分析分为静态语义和动态语义:
静态语义:在编译期间能确定的语义
函数实参形参类型匹配及转换
不允许使用一个未声明的变量
动态语义:在运行期间才能确定的语义
除数为0
但是这一关不是很容易过的:
常见的语义错误(警告)
使用一个未声明的变量或函数
函数的形参实参、返回类型不匹配、不兼容(默认类型转换后)
continue语句不能出现循环语句之外
break不能出现在循环或switch语句之外
。。。。。。。。。。。。。
编译第四阶段:生成中间代码
将语法树转化为中间代码,中间代码是一种源码变过来的的内部表示形式,它是一种记号系统,常见的有:三地址码、P-代码。现代编译器构造如下:
前端:词法分析、语法分析、语义分析
优化器:对中间代码进行优化
后端:指令选择、寄存器分配
编译第五阶段:生成汇编
将中间代码翻译成汇编文件,过程:中间代码>控制流、数据流分析、寄存器分配>汇编语言>目标文件
下面分析一下这个阶段过程中产生的各种表的信息
符号表:
在编译过程中,符号表用来保存源程序中各种符号的信息,主要包括符号的地址值、类型、占用空间的大小,他的主要作用是辅助语义检查:看源程序是否有语义错误;辅助代码生成:地址与空间分配、符号决议、重定位,如图:
若有一些未定义的变量或者函数,编译器在这个阶段不会报错,因为可能在其他文件或者库中定义;相关未定义的值暂时用零填充,这些符号需要后续填充,使用一个重定位表记录。如图。
符号表本质上是一个结构体数组:
typedef struct elf32_sym{
Elf32_Word st_name; //符号名,字符串表中的索引
Elf32_Addr st_value; //符号对应的值
Elf32_Word st_size; //符号大小,如int类型数据符号=4
unsigned char st_info; //符号类型和绑定信息
unsigned char st_other;
Elf32_Half st_shndx; //符号所在的段
}Elf32_Sym;
符号类型和绑定属性
• 符号类型
• OBJECT:符号关联的是一个数据对象:变量、数组或指针
• FUNC:符号关联到一个函数或者过程
• SECTION:符号关联到一个节的名字
• FILE:符号关联一个文件名
• NOTYPE:符号的类型未指定,其用于未定义引用
• 绑定属性
• LOCAL:局部符号,目标文件内可见。多文件重名不冲突
• GLOBAL:全局符号,在目标文件内部可见,也可以被其它文件引用
• WEAK:弱符号,整个程序可见,多文件可重复定义。即使弱符号未定义,链接也不报错,将符号值设置为0
节索引
• 节头表
• 一个目标文件包含多个section,用节头表来描述每个section
• 符号表保存的是所有section的符号信息
• 使用节索引来表明符号表中每个符号所在的section,将符号绑定在该section
• 几个特殊的
• ABS:指定符号的绝对值,不需要重定位的符号
• UNDEF:未定义符号,本模块引用,但在其它地方定义
• COMMON:标识还未分配位置的未初始化的数据
重定位表:
重定位表记录需要重定位的符号,一般使用“readelf -S file”命令查看:
字符串表:
• 存储.symtab、.debug节中的符号名:如函数名、变量名等
• 节名字:如.text、.data、.bss、.comment等
• 格式为字符串数组,存储跟ELF文件格式有关的字符串
• 一个目标文件可能有多个字符串表:如.shstrtab节里包含所有的节名字
目标文件的构成:
• 纯代码段:.text .data .rodata
• 文件描述信息段:.symtab .strtab .rel.text .rel.data ELF header
program header table section header table
这些表为后续的链接、运行过程提供必要的信息,链接器根据重定位表、符号表进行链接、重定位后续操作,生成可以运行的可执行文件。