程序的编译、链接和运行详解（2）

最新推荐文章于 2022-03-20 17:41:19 发布

MOTControl

最新推荐文章于 2022-03-20 17:41:19 发布

阅读量195

点赞数 1

文章标签：编译器 linux

本文链接：https://blog.csdn.net/weixin_50489848/article/details/115756909

版权

本节主要介绍一下程序的预处理阶段和编译阶段。

预处理

        一个C/C++程序转化成可执行文件，第一步便是预处理。那么预处理阶段究竟干了些什么事呢？
        其实预处理阶段主要做了宏命令展开和文本替换这些工作，具体如下：
1）头文件展开：将#include包含的文件插入到该指令位置；
2）宏展开：展开所有的宏定义，并删除#define
3）条件编译：处理所有的条件预编译指令：#if、#ifdef、#else
4）删除注释
5）添加行号和文件名标识：编译调试时显示行号信息
6）保留#pragma命令
        那么为什么需要预处理这个过程呢？其实就是为了编程方便，使代码能过兼容各个平台和处理器架构，从而最大程度的复用代码。
        对源文件进行预处理生成的是.i文件。下图是一个c文件预处理后的文件：（使用的命令是：gcc -E main.c -o main.i）
在这里插入图片描述

大家可以仔细看看变成.i的文件后那些地方发生了变化。

        下面简单介绍一下这个#pragma命令。
用途
        • 设定编译器状态
        • 指示编译器完成一些特定的动作
• 使用格式
        • #pragma pack([n])：指示结构体和联合成员的对齐方式
        • #pragma message(“string”)：编译信息输出窗口打印文本信息
        • #pragma warning：有选择地改变编译器的警告信息行为
        • #pragma once：在头文件里加入这条指令，防止头文件多次编译

编译

一、从源文件到汇编文件

        c程序源文件经过编译输出汇编文件、目标文件等，那么从高级语言到低级语言，程序是怎么变化的呢？
        – 程序语句、函数>代码段
        – 变量、常量>数据段、BSS段、rodata段
        – 各种辅助信息>符号表、重定位表…

编译的第一阶段：词法分析
        该阶段主要由词法扫描器完成，比如lex词法扫描器，词法扫描器从左到右，一个一个字符的读入源程序，然后对源程序的字符流进行扫描，分解成一系列记号：token；最后将标识符存到符号表，将数字、字符串存放到字符串表。词法扫描器采用有限状态机去解析并识别这些token、分界符、结束符。
        常见的token记号有：
– 关键字、标识符(函数名、变量名、标号等)、
– 字面量(数字、字符串等)、
– 特殊字符(运算符等)
– 分界符(分号、逗号等)
举例：
         语句：sum = a + b/c ;
        包含8个记号：”sum”、”=”、”a”、”+”、”b”、”/”、”c”、” ;”

编译第二阶段：语法分析
语法分析使用专门的语法分析工具：yacc，对输入序列进行分析，构建出语法树；语法分析器将前阶段产生的token序列进行语法分析，看是否构成一个语法上正确的程序，分解成语法短语(程序、语句、表达式等)，语法短语用语法树表示，是一种树形结构，不再是线性序列。
在这里插入图片描述
编译第三阶段：语义分析

        本阶段使用语义分析器，主要是检查语法分析输出的语句、程序、表达式有没有错误，如果源代码语义上没有问题，就会接下来进入下一阶段。经过语义分析后，整个语法树的表达式都被标识了类型。语义分析分为静态语义和动态语义：
静态语义：在编译期间能确定的语义
        函数实参形参类型匹配及转换
        不允许使用一个未声明的变量
动态语义：在运行期间才能确定的语义
        除数为0

但是这一关不是很容易过的：
常见的语义错误(警告)
         使用一个未声明的变量或函数
        函数的形参实参、返回类型不匹配、不兼容(默认类型转换后)
        continue语句不能出现循环语句之外
         break不能出现在循环或switch语句之外
。。。。。。。。。。。。。

编译第四阶段：生成中间代码
        将语法树转化为中间代码，中间代码是一种源码变过来的的内部表示形式，它是一种记号系统，常见的有：三地址码、P-代码。现代编译器构造如下：
                前端：词法分析、语法分析、语义分析
                优化器：对中间代码进行优化
                 后端：指令选择、寄存器分配

编译第五阶段：生成汇编
将中间代码翻译成汇编文件，过程：中间代码>控制流、数据流分析、寄存器分配>汇编语言>目标文件

下面分析一下这个阶段过程中产生的各种表的信息

符号表：
在编译过程中，符号表用来保存源程序中各种符号的信息，主要包括符号的地址值、类型、占用空间的大小，他的主要作用是辅助语义检查：看源程序是否有语义错误；辅助代码生成：地址与空间分配、符号决议、重定位，如图：

在这里插入图片描述
        若有一些未定义的变量或者函数，编译器在这个阶段不会报错，因为可能在其他文件或者库中定义；相关未定义的值暂时用零填充，这些符号需要后续填充，使用一个重定位表记录。如图。

符号表本质上是一个结构体数组：
typedef struct elf32_sym{
        Elf32_Word st_name; //符号名，字符串表中的索引
        Elf32_Addr st_value; //符号对应的值
        Elf32_Word st_size; //符号大小，如int类型数据符号=4
        unsigned char st_info; //符号类型和绑定信息
        unsigned char st_other;
        Elf32_Half st_shndx; //符号所在的段
}Elf32_Sym;

符号类型和绑定属性
• 符号类型
        • OBJECT：符号关联的是一个数据对象：变量、数组或指针
        • FUNC：符号关联到一个函数或者过程
        • SECTION：符号关联到一个节的名字
        • FILE：符号关联一个文件名
        • NOTYPE：符号的类型未指定，其用于未定义引用
• 绑定属性
        • LOCAL：局部符号，目标文件内可见。多文件重名不冲突
        • GLOBAL：全局符号，在目标文件内部可见，也可以被其它文件引用
        • WEAK：弱符号，整个程序可见，多文件可重复定义。即使弱符号未定义，链接也不报错，将符号值设置为0

节索引
• 节头表
        • 一个目标文件包含多个section，用节头表来描述每个section
        • 符号表保存的是所有section的符号信息
        • 使用节索引来表明符号表中每个符号所在的section，将符号绑定在该section
• 几个特殊的
        • ABS：指定符号的绝对值，不需要重定位的符号
        • UNDEF：未定义符号，本模块引用，但在其它地方定义
        • COMMON：标识还未分配位置的未初始化的数据

重定位表：
        重定位表记录需要重定位的符号，一般使用“readelf -S file”命令查看：
在这里插入图片描述

字符串表：
        • 存储.symtab、.debug节中的符号名：如函数名、变量名等
        • 节名字：如.text、.data、.bss、.comment等
        • 格式为字符串数组，存储跟ELF文件格式有关的字符串
        • 一个目标文件可能有多个字符串表：如.shstrtab节里包含所有的节名字