3.PE文件的结构
3.3 节区表
节区表位于PE文件NT头之后,也是PE头的最后一个部分。节区表记录了PE文件中所有节区的相关属性,节区表由一系列的IMAGE_SECTION_HEADER结构排列而成,每个结构用来描述一个节,结构的排列顺序和它们描述的节在文件中的排列顺序是一致的。全部有效结构的最后以一个空的IMAGE_SECTION_HEADER结构作为结束,所以节表中IMAGE_SECTION_HEADER结构数量等于节的数量加一。IMAGE_SECTION_HEADER结构体大小0x28字节,为该结构体的内容如下:
#define IMAGE_SIZEOF_SHORT_NAME 8
typedef struct _IMAGE_SECTION_HEADER {
BYTE Name[IMAGE_SIZEOF_SHORT_NAME]; //节表名称
union {
DWORD PhysicalAddress;
DWORD VirtualSize; //节区虚拟内存大小
} Misc;
DWORD VirtualAddress; //虚拟内存地址(RVA)
DWORD SizeOfRawData; //节区的物理大小
DWORD PointerToRawData; //节区的物理偏移
DWORD PointerToRelocations; //在OBJ文件中使用,重定位的偏移
DWORD PointerToLinenumbers; //行号表的偏移(供调试使用地)
WORD NumberOfRelocations; //在OBJ文件中使用,重定位项数目
WORD NumberOfLinenumbers; //行号表中行号的数目
DWORD Characteristics; //节区的属性
} IMAGE_SECTION_HEADER, *PIMAGE_SECTION_HEADER;
接下来介绍每个具体的成员变量:
-
Name
该数据为BYTE的数组,数组长度为8,大小为8个字节。该数据标识此节区表的名称,节区的名称和含义主要有以下几种:
节区名称 描述 .text 默认的代码区块,其内容为指令代码 .data 默认的读/写数据区块 .rdata 默认的只读数据区块 .idata 存放导入表信息 .edata 存放导出表信息 .rsrc 资源,包含模块的全部资源 .bss 存放未初始化数据 .crt 用于支持C++运行时(CRT)添加的数据 .tls 线程本地存储区 .reloc 可执行文件的基址重定位 该PE文件的该节区表的Name为.text
-
Misc
该数据为共用体,数据大小为4字节,一般为VirtualSize标识节区在虚拟内存中的大小,是该节在没有进行SectionAlignment对齐前的实际大小。
该PE文件的.text节区的VirtualSize为0x0B65字节。
-
VirtualAddress
该数据的大小为4字节,标识该节区被装载到虚拟内存中时的偏移地址(RVA),该地址已按照SectionAlignment大小对齐。
该PE文件的.text节区的起始虚拟内存地址为0x1000。
-
SizeOfRawData
该数据的大小为4字节,标识该节区在磁盘中所占物理大小,该值已按照FileAlignment大小对齐。
该PE文件的.text节区的物理大小为0x0C00。
-
PointerToRawData
该数据的大小为4字节,标识该节区在磁盘上的PE文件中的偏移量。
该PE文件的.text节区从0x0400字节处开始。
-
PointerToRelocations
该数据的大小为4字节,标识OBJ文件中,本区块重定位信息的偏移值,指向一个IMAGE_RELOCATION结构的数组。在exe文件中一般没用。
该PE文件的.text节区的重定向值为0。
-
PointerToLinenumbers
该数据的大小为4字节,标识行号表在文件中的偏移,主要用于调试相关,并不重要。
该PE文件的.text节区的行号表偏移为0。
-
NumberOfRelocations
该数据的大小为2字节,标识OBJ文件中重定位表中重定位数目。
该PE文件的.text节区的重定位数目为0。
-
NumberOfLinenumbers
该数据的大小为2字节,标识行号表中的行号数目,用于调试相关不重要。
该PE文件的.text节区的行号表行数为0。
-
Characteristics
该数据的大小为4字节,标识节区的相关属性,按位指出该节区的属性,若某一位为1则该节区具有该位代表的属性。节区的具体属性值如下所示,仅列出有含义的位属性:
//位数从低到高 #define IMAGE_SCN_SCALE_INDEX 0x00000001 //第1位 Tls index is scaled #define IMAGE_SCN_CNT_CODE 0x00000020 //第6位 Section contains code. #define IMAGE_SCN_CNT_INITIALIZED_DATA 0x00000040 //第7位 Section contains initialized data. #define IMAGE_SCN_CNT_UNINITIALIZED_DATA 0x00000080 //第8位 Section contains uninitialized data. #define IMAGE_SCN_LNK_INFO 0x00000200 //第10位 Section contains comments or some other type of information. #define IMAGE_SCN_LNK_REMOVE 0x00000800 //第12位 Section contents will not become part of image. #define IMAGE_SCN_LNK_COMDAT 0x00001000 //第13位 Section contents comdat. #define IMAGE_SCN_NO_DEFER_SPEC_EXC 0x00004000 //第15位 Reset speculative exceptions handling bits in the TLB entries for this section. #define IMAGE_SCN_GPREL 0x00008000 //第16位 Section content can be accessed relative to GP #define IMAGE_SCN_LNK_NRELOC_OVFL 0x01000000 //第25位 Section contains extended relocations. #define IMAGE_SCN_MEM_DISCARDABLE 0x02000000 //第26位 Section can be discarded. #define IMAGE_SCN_MEM_NOT_CACHED 0x04000000 //第27位 Section is not cachable. #define IMAGE_SCN_MEM_NOT_PAGED 0x08000000 //第28位 Section is not pageable. #define IMAGE_SCN_MEM_SHARED 0x10000000 //第29位 Section is shareable. #define IMAGE_SCN_MEM_EXECUTE 0x20000000 //第30位 Section is executable. #define IMAGE_SCN_MEM_READ 0x40000000 //第31位 Section is readable. #define IMAGE_SCN_MEM_WRITE 0x80000000 //第32位 Section is writeable.
该PE文件的.text节区的属性值为0x60000020,即第6位,第30位,和第31位为1,标识.text节区是可读,可执行,包含代码的节区。
3.4 节区
上面在介绍完了PE头所有的数据结构,本小节将介绍PE体中与节区相关的数据结构。
在上述的介绍中,NT header中的可选头部中存在着一个由IMAGE_DATA_DIRECTORY结构组成的数组,该数组的每个变量都标识着PE节区中一个重要的数据区域。因此,下面将介绍部分重要的数据区域。
3.4.1 Import Directory
程序在运行的过程中往往需要调用某些库中的函数,Windows 操作系统下的 PE 文件一般通过 2 种方法来获取调用函数的地址:
-
隐式链接
隐式链接是最常见的方法。程序的IAT(Import Address Table,导入地址表)中保存了所需的API信息,程序PE装载器在加载PE文件到内存时,还会加载相关的DLL到内存中,并根据 IAT 表中的信息,将 IAT 表中的地址替换为对应API的虚拟地址;在运行过程中的进程则是通过IAT 表中保存的API地址来实现对应API的调用。
-
显式链接
与隐式链接中由操作系统完成DLL加载和API地址的获取不同,显式链接需要程序在运行过程中手动加载DLL和获取API地址,这其中最常见的方法是通过LoadLibrary来加载DLL,使用GetProcAddress来获取API的地址。
如何找到IAT表,并获取相关函数地址则是与Import Directory(导入表)相关。
在上述的NT header中的可选头部的DataDirectory数组中有四个元素和导入表相关的数据域分别为:
-
IMAGE_DIRECTORY_ENTRY_IMPORT
该元素指向区域为所说的导入表,当PE文件加载到内存中时,PE装载器会根据这个表中的内容加载DLL,并将相应函数的地址填写到导入地址表中。
-
IMAGE_DIRECTORY_ENTRY_BOUND_IMPORT
绑定导入表:第一种导入表导入地址的填写是在PE加载时完成,如果一个PE文件导入的DLL或者函数多那么加载起来就会略显的慢一些,所以出现了绑定导入,在加载以前就修正了导入表,这样就会快一些。
-
IMAGE_DIRECTORY_ENTRY_DELAY_IMPORT
延迟导入表,一个PE文件也许提供了很多功能,也导入了很多其他DLL,但是并非每次加载都会用到它提供的所有功能,也不一定会用到它需要导入的所有DLL,因此延迟导入就出现了,只有在一个PE文件真正用到需要的DLL,这个DLL才会被加载,甚至于只有真正使用某个导入函数,这个函数地址才会被修正。
-
IMAGE_DIRECTORY_ENTRY_IAT
导入地址表,前面的三个表其实是导入函数的描述,真正的函数地址是被填充在导入地址表中的
导入表是由IMAGE_IMPORT_DESCRIPTOR结构构成的数组,其中每个元素都包含了一个DLL的相关信息,该结构的具体内容如下:
typedef struct _IMAGE_IMPORT_DESCRIPTOR {
union {
DWORD Characteristics; // 0 for terminating null import descriptor
DWORD OriginalFirstThunk; // RVA to original unbound IAT (PIMAGE_THUNK_DATA)
} DUMMYUNIONNAME;
DWORD TimeDateStamp; // 0 if not bound,
// -1 if bound, and real date\time stamp
// in IMAGE_DIRECTORY_ENTRY_BOUND_IMPORT (new BIND)
// O.W. date/time stamp of DLL bound to (Old BIND)
DWORD ForwarderChain; // -1 if no forwarders
DWORD Name;
DWORD FirstThunk; // RVA to IAT (if bound this IAT has actual addresses)
} IMAGE_IMPORT_DESCRIPTOR;
在上一节中我们计算了导入表的具体raw地址为0x1308,其大小为0x50字节。IMAGE_IMPORT_DESCRIPTOR结构大小为0x14字节,并且该数组以一个空的结构为结尾,说明该PE文件的导入表中包含了三个DLL的导入信息。
下面将详细介绍每个具体的成员变量:
-
DUMMYUNIONNAME
该数据大小为4字节,是Characteristics和OriginalFirstThunk的联合体。当该数据值为0时为Characteristics,标志着这时导入表的最后一个元素,全部为0。当该数据不为0时为OriginalFirstThunk,该值为**INT(Import Name Table)**的RVA地址,该表存放了这个DLL导出函数的相关信息。
可以看到第一个元素的此数据为0x239c,转换得到INT表的raw地址为0x139c,下面会具体介绍INT表的相关结构。
-
TimeDateStamp
该数据大小为4字节,当该时间戳为0时,标识加载前的INT表和IAT表完全相同。当该数据不为0时(-1),标识INT表和IAT表不同,IAT表中存放的为该DLL函数的绝对地址。真正的时间戳存放在绑定导入表中。
-
ForwarderChain
该数据大小为4字节,此字段一般可以忽略
-
Name
该数据大小为4字节,该数据为导入的DLL名称的RVA地址。
上图可以看到第一个DLL的名称的地址为0x2724,转换为raw地址为0x1724,在WinHex中查看:
第一个导入的DLL名称为MSVCP100.dll
-
FirstThunk
该数据大小为4字节,该数据为IAT表的RVA地址。
可以看到第一个DLL的IAT地址为0x2044,转换为raw地址为0x1044。
上面讲述了IMAGE_IMPORT_DESCRIPTOR数据结构,每个结构都指向了一个DLL。接下来讲解结构中OriginalFirstThunk指向的INT表和FirstThunk指向的IAT表。
IAT表和INT表都是由IMAGE_THUNK_DATA32数据结构组成的数组,该结构的具体内容如下:
typedef struct _IMAGE_THUNK_DATA32 {
union {
DWORD ForwarderString; // PBYTE
DWORD Function; // PDWORD
DWORD Ordinal;
DWORD AddressOfData; // PIMAGE_IMPORT_BY_NAME
} u1;
} IMAGE_THUNK_DATA32;
该结构为四个数据的共用体,其大小为4字节,通过Ordinal判断该共用体的具体内容,当该4字节的最高为0时,则该结构体表示的为AddressOfData,其值为指向IMAGE_IMPORT_BY_NAME结构数组的RVA值,该数组包含导入函数的相关信息,该结构的具体内容如下。
typedef struct _IMAGE_IMPORT_BY_NAME {
WORD Hint;
BYTE Name[1];
} IMAGE_IMPORT_BY_NAME, *PIMAGE_IMPORT_BY_NAME;
-
Hint
该数据大小为2字节,如果不为0则为此函数在DLL的导出表中的索引。
-
Name
该数据标识导入函数的名称,虽然结构中只有一个字节,但该名称是以/0为结尾的,其实际长度要多于一字节。
例如上面第一个DLL的OriginalFirstThunk指向的INT地址为0x239c,转换为raw地址为0x139c。查看该INT表的第一元素值为0x26DE,第二个元素的值为0x269E;第一个DLL的FirstThunk指向的IAT地址为0x2044,转换为raw地址为0x1044。查看该IAT表的第一元素值为0x26DE,第二元素值为0x269E,发现IAT和INT表中国的元素指向的值一致,即IAT表和INT表都指向同一个由IMAGE_IMPORT_BY_NAME结构组成的函数表。通过遍历INT表则可找出该DLL中导入的所有函数名称。
通过遍历INT表则可找出该DLL中导入的所有函数名称,例如里一个函数的IMAGE_IMPORT_BY_NAME结构地址为0x26DE,其raw值为0x16DE,查看
该函数IMAGE_IMPORT_BY_NAME结构体中索引值为0x036B,其名称为?endl@std@@YAAAV? b a s i c o s t r e a m @ D U ? basic_ostream@DU? basicostream@DU?char_traits@D@std@@@1@AAV21@@Z。
可以看到在PE文件加载到内存前,每个DLL的INT表和IAT表指向的都是同一个导入函数的数组。但当PE文件装载后,PE装载器会根据INT表将IAT表填充每个函数实际VA地址,也就是IMAGE_THUNK_DATA32结构中的Function,这时使用IAT表中的Function指向的地址,即可调用相应的函数。
3.4.2 Export Directory
导出表与导入表正好相反,该表能够让不同的应用程序可以调用该库文件中提供的函数。对于此结构的演示就采用上述PE文件导入的第一个DLL,MSVCP100.dll。
使用WinHex打开该DLL,并从NT头中的可选头的DataDirectory数组中读取索引为0的元素,该元素指向DLL导出表的RVA为0x03EDB0,其大小为0x01EFC5,导出表的raw为0x03E1B0。
由于一个DLL只有本DLL的导出函数因此其只有一个导入表,不像导入表有多个DLL导入函数信息。
导入表由一个IMAGE_EXPORT_DIRECTORY结构组成,该结构的具体内容如下:
typedef struct _IMAGE_EXPORT_DIRECTORY {
DWORD Characteristics;
DWORD TimeDateStamp;
WORD MajorVersion;
WORD MinorVersion;
DWORD Name;
DWORD Base;
DWORD NumberOfFunctions;
DWORD NumberOfNames;
DWORD AddressOfFunctions; // RVA from base of image
DWORD AddressOfNames; // RVA from base of image
DWORD AddressOfNameOrdinals; // RVA from base of image
} IMAGE_EXPORT_DIRECTORY, *PIMAGE_EXPORT_DIRECTORY;
下面将根据MSVCP100.dll导出表实例,具体解析每个成员变量:
从上述计算的raw地址找到导出表。
-
Characteristics
该数据大小为4字节,该数据没什么含义总是为0。
-
TimeDateStamp
该数据大小为4字节,标识该导出表生成的时间戳。
该DLL导出表的时间戳为0x4DF2B87A,使用PE tools转换为标准时间为
-
MajorVersion和MinorVersion
这个两个数据的大小都为2字节,标识主/副版本,始终为0。
-
Name
该数据大小4字节,标识该导出模块的真实名称的RVA地址。
该DLL的name为0x042F50,其raw地址为0x042350,查看名称为MSVCP100.dll
-
Base
该数据大小为4字节,标识着导出函数序号值的基数,一般都是1,序号从1开始。
-
NumberOfFunctions
该数据大小为4字节,标识着导出函数的数量。
该DLL导出函数的数量为0x068C个。
-
NumberOfNames
该数据大小为4字节,标识着以名称导出的函数数量。
该DLL以名称导出函数的数量为0x068C个。
-
AddressOfFunctions
该数据大小为4字节,标识着导出函数地址数组的RVA地址,该数组为DWORD结构数组,其元素数量为上面的NumberOfFunctions,每个元素代表该函数地址的RVA值。
该DLL的导出函数地址表的RVA为0x03EDD8,raw地址为0x03E1D8,其大小为0x1A30。
该DLL导出函数序号为1的函数地址为0x016573。
-
AddressOfNames
该数据大小为4字节,标识着导出函数名称数组的RVA地址,该数组为DWORD结构数组,其元素数量为上面的NumberOfNames,每个元素为该导出函数名称的RVA地址。
该DLL的导出函数地址表的RVA为0x040808,raw地址为0x03FC08,其大小为0x1A30。
该函数名称表的第一个元素的RVA值为0x042F5D,其RAW值为0x04235D,查看
该函数的名称为??0?$_Yarn@D@std@@QAE@ABV01@@Z。
-
AddressOfNameOrdinals
该数据大小为4字节,标识着导出函数序号数组的RVA地址,该数组为WORD结构数组,其元素数为NumberOfNames,每个元素代表着该导出函数在AddressOfFunctions的函数序号(从0开始,加上基数从1开始)。
该DLL的导出函数地址表的RVA为0x042238,raw地址为0x041638,其大小为0x0D18。
到此导入表和导出表的相关内容都已介绍完毕,使用一个小例子结合二者。第一个PE文件中导入表中从MSVCP100.dll导入的第一个函数的索引值为0x036B,其名称为?endl@std@@YAAAV? b a s i c o s t r e a m @ D U ? basic_ostream@DU? basicostream@DU?char_traits@D@std@@@1@AAV21@@Z。这次在MSVCP100.dll的导出表中查看该函数,导出表的AddressOfNames起始raw地址为0x03FC08,加上该函数的索引0x036B乘4,则该函数的名称的raw地址为0x0409B4,查看该函数名称的RVA为0x051F92,其RAW地址为0x051392。
查看该函数名称,和上述的函数名称一致。通过该索引值也能找到相应的函数地址(RVA)。
本文章所有用的文件和相关工具都在以下链接中获取:
链接:https://pan.baidu.com/s/1vet49RBNPScmp_AQpnCqnw
提取码:48u8