程序的编译、链接和运行详解(2)

本节主要介绍一下程序的预处理阶段和编译阶段。

预处理

        一个C/C++程序转化成可执行文件,第一步便是预处理。那么预处理阶段究竟干了些什么事呢?
        其实预处理阶段主要做了宏命令展开和文本替换这些工作,具体如下:
1)头文件展开:将#include包含的文件插入到该指令位置;
2)宏展开:展开所有的宏定义,并删除#define
3)条件编译:处理所有的条件预编译指令:#if、#ifdef、#else
4)删除注释
5)添加行号和文件名标识:编译调试时显示行号信息
6) 保留#pragma命令
        那么为什么需要预处理这个过程呢?其实就是为了编程方便,使代码能过兼容各个平台和处理器架构,从而最大程度的复用代码。
        对源文件进行预处理生成的是.i文件。下图是一个c文件预处理后的文件:(使用的命令是:gcc -E main.c -o main.i)
在这里插入图片描述
在这里插入图片描述
大家可以仔细看看变成.i的文件后那些地方发生了变化。

        下面简单介绍一下这个#pragma命令。
用途
        • 设定编译器状态
        • 指示编译器完成一些特定的动作
• 使用格式
        • #pragma pack([n]):指示结构体和联合成员的对齐方式
        • #pragma message(“string”):编译信息输出窗口打印文本信息
        • #pragma warning:有选择地改变编译器的警告信息行为
        • #pragma once:在头文件里加入这条指令,防止头文件多次编译

编译

一、从源文件到汇编文件

        c程序源文件经过编译输出汇编文件、目标文件等,那么从高级语言到低级语言,程序是怎么变化的呢?
        – 程序语句、函数>代码段
        – 变量、常量>数据段、BSS段、rodata段
        – 各种辅助信息>符号表、重定位表…

编译的第一阶段:词法分析
        该阶段主要由词法扫描器完成,比如lex词法扫描器,词法扫描器从左到右,一个一个字符的读入源程序,然后对源程序的字符流进行扫描,分解成一系列记号:token;最后将标识符存到符号表,将数字、字符串存放到字符串表。词法扫描器采用有限状态机去解析并识别这些token、分界符、结束符。
        常见的token记号有:
– 关键字、标识符(函数名、变量名、标号等)、
– 字面量(数字、字符串等)、
– 特殊字符(运算符等)
– 分界符(分号、逗号等)
举例:
         语句:sum = a + b/c ;
        包含8个记号:”sum”、”=”、”a”、”+”、”b”、”/”、”c”、” ;”

编译第二阶段:语法分析
        语法分析使用专门的语法分析工具:yacc,对输入序列进行分析,构建出语法树;语法分析器将前阶段产生的token序列进行语法分析,看是否构成一个语法上正确的程序,分解成语法短语(程序、语句、表达式等), 语法短语用语法树表示,是一种树形结构,不再是线性序列。
在这里插入图片描述
编译第三阶段:语义分析

        本阶段使用语义分析器,主要是检查语法分析输出的语句、程序、表达式有没有错误,如果源代码语义上没有问题,就会接下来进入下一阶段。经过语义分析后,整个语法树的表达式都被标识了类型。语义分析分为静态语义和动态语义:
静态语义:在编译期间能确定的语义
        函数实参形参类型匹配及转换
        不允许使用一个未声明的变量
动态语义:在运行期间才能确定的语义
        除数为0

但是这一关不是很容易过的:
常见的语义错误(警告)
         使用一个未声明的变量或函数
        函数的形参实参、返回类型不匹配、不兼容(默认类型转换后)
        continue语句不能出现循环语句之外
         break不能出现在循环或switch语句之外
。。。。。。。。。。。。。

编译第四阶段:生成中间代码
        将语法树转化为中间代码,中间代码是一种源码变过来的的内部表示形式,它是一种记号系统,常见的有:三地址码、P-代码。现代编译器构造如下:
                前端:词法分析、语法分析、语义分析
                优化器:对中间代码进行优化
                 后端:指令选择、寄存器分配

编译第五阶段:生成汇编
        将中间代码翻译成汇编文件,过程:中间代码>控制流、数据流分析、寄存器分配>汇编语言>目标文件

下面分析一下这个阶段过程中产生的各种表的信息

符号表:
        在编译过程中,符号表用来保存源程序中各种符号的信息,主要包括符号的地址值、类型、占用空间的大小,他的主要作用是辅助语义检查:看源程序是否有语义错误;辅助代码生成:地址与空间分配、符号决议、重定位,如图:

在这里插入图片描述
        若有一些未定义的变量或者函数,编译器在这个阶段不会报错,因为可能在其他文件或者库中定义;相关未定义的值暂时用零填充,这些符号需要后续填充,使用一个重定位表记录。如图。
在这里插入图片描述
符号表本质上是一个结构体数组:
typedef struct elf32_sym{
        Elf32_Word st_name; //符号名,字符串表中的索引
        Elf32_Addr st_value; //符号对应的值
        Elf32_Word st_size; //符号大小,如int类型数据符号=4
        unsigned char st_info; //符号类型和绑定信息
        unsigned char st_other;
        Elf32_Half st_shndx; //符号所在的段
}Elf32_Sym;

符号类型和绑定属性
• 符号类型
        • OBJECT:符号关联的是一个数据对象:变量、数组或指针
        • FUNC:符号关联到一个函数或者过程
        • SECTION:符号关联到一个节的名字
        • FILE:符号关联一个文件名
        • NOTYPE:符号的类型未指定,其用于未定义引用
• 绑定属性
        • LOCAL:局部符号,目标文件内可见。多文件重名不冲突
        • GLOBAL:全局符号,在目标文件内部可见,也可以被其它文件引用
        • WEAK:弱符号,整个程序可见,多文件可重复定义。即使弱符号未定义,链接也不报错,将符号值设置为0

节索引
• 节头表
        • 一个目标文件包含多个section,用节头表来描述每个section
        • 符号表保存的是所有section的符号信息
        • 使用节索引来表明符号表中每个符号所在的section,将符号绑定在该section
• 几个特殊的
        • ABS:指定符号的绝对值,不需要重定位的符号
        • UNDEF:未定义符号,本模块引用,但在其它地方定义
        • COMMON:标识还未分配位置的未初始化的数据

重定位表:
        重定位表记录需要重定位的符号,一般使用“readelf -S file”命令查看:
在这里插入图片描述
在这里插入图片描述
字符串表:
        • 存储.symtab、.debug节中的符号名:如函数名、变量名等
        • 节名字:如.text、.data、.bss、.comment等
        • 格式为字符串数组,存储跟ELF文件格式有关的字符串
        • 一个目标文件可能有多个字符串表:如.shstrtab节里包含所有的节名字

目标文件的构成:
在这里插入图片描述
• 纯代码段:.text .data .rodata
• 文件描述信息段:.symtab .strtab .rel.text .rel.data ELF header
program header table section header table

        这些表为后续的链接、运行过程提供必要的信息,链接器根据重定位表、符号表进行链接、重定位后续操作,生成可以运行的可执行文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值