当PE文件被执行的时候,Windows装载器将文件装入内存并将导入表中登记的DLL文件一并装入,再根据DLL文件中的函数导出信息对被执行文件的IAT表进行修正。
Windows 在加载一个程序后就在内存中为该程序开辟一个单独的虚拟地址空间,这样的话在各个程序自己看来,自己就拥有几乎任意地址的支配权,所以他自身的函数想放在哪个地址自己说了算。有一些函数很多程序都会用到,为每一个程序写一个相同的函数看起来似乎有点浪费空间,因此Windows就整出了动态链接库的概念,将一些常用的函数封装成动态链接库,等到需要的时候通过直接加载动态链接库,将需要的函数整合到自身中,这样就大大的节约了内存中资源的存放。
动态链接库是被映射到其他应用程序的地址空间中执行的,它和应用程序可以看成是“一体”的,动态链接库可以使用应用程序的资源,它所拥有的资源也可以被应用程序使用,它的任何操作都是代表应用程序进行的,当动态链接库进行打开文件、分配内存和创建窗口等操作后,这些文件、内存和窗口都是为应用程序所拥有的。
导出表就是记载着动态链接库的一些导出信息。通过导出表,DLL 文件可以向系统提供导出函数的名称、序号和入口地址等信息,比便Windows 加载器通过这些信息来完成动态连接的整个过程。
扩展名为.exe 的PE 文件中一般不存在导出表,而大部分的.dll 文件中都包含导出表。但注意,这并不是绝对的。例如纯粹用作资源的.dll 文件就不需要导出函数啦,另外有些特殊功能的.exe 文件也会存在导出函数。
一、导出表的结构
1.获取导出表的位置
导出表的位置和大小可以从PE文件中IMAGE_OPTIONAL_HEADER32结构的数据目录字段中获取。从IMAGE_OPTIONAL_DIRECTORY结构的VirtualAddress字段得到的是导入表的RVA值,如果在内存中查找导入表,那么将RVA值加上PE文件装入的基址就是实际的地址,如果在PE文件中查找导入表,那么需要使用前面讲的将RVA转换成文件偏移的方法进行转换。
2.导出表的组成
导出表中为每个导出函数定义了导出序号,但函数名的定义是可选的。对于定义了函数名的函数来说,既可以使用名称导出,也可以使用序号导出:对于没有定义函数名的函数来说,只能使用序号来导出。
导出表的起始位置有一个IMAGE_EXPORT_DIRECTORY结构,与导入表中有多个IMAGE_IMPORT_DESCRIPTOR结构不同,导出表中只有一个IMAGE_EXPORT_DIRECTORY结构,定义如下:
IMAGE_EXPORT_DIRECTORY STRUCT
Characteristics DWORD ? ; 未使用,总是定义为0
TimeDateStamp DWORD ? ; 文件生成时间
MajorVersion WORD ? ; 未使用,总是定义为0
MinorVersion WORD ? ; 未使用,总是定义为0
Name DWORD ? ; 模块的真实名称RVA
Base DWORD ? ; 基数,加上序数就是函数地址数组的索引值
NumberOfFunctions DWORD ? ; 导出函数的总数
NumberOfNames DWORD ? ; 以名称方式导出的函数的总数
AddressOfFunctions DWORD ? ; 指向输出函数地址的RVA
AddressOfNames DWORD ? ; 指向输出函数名字的RVA
AddressOfNameOrdinals DWORD ? ; 指向输出函数序号的RVA
IMAGE_EXPORT_DIRECTORY ENDS
这个结构中的一些字段并没有被使用,有意义的字段说明如:
①Name
一个RVA 值,指向一个定义了模块名称的字符串。如即使Kernel32.dll 文件被改名为”Ker.dll”,仍然可以从这个字符串中的值得知其在编译时的文件名是”Kernel32.dll”。
②NumberOfFunctions
文件中包含的导出函数的总数。
③NumberOfNames
被定义函数名称的导出函数的总数,显然只有这个数量的函数既可以用函数名方式导出。也可以用序号方式导出,剩下的NumberOfFunctions 减去NumberOfNames 数量的函数只能用序号方式导出。该字段的值只会小于或者等于 NumberOfFunctions 字段的值,如果这个值是0,表示所有的函数都是以序号方式导出的。
④AddressOfFunctions
一个RVA 值,指向包含全部导出函数入口地址的双字数组。数组中的每一项是一个RVA 值,数组的项数等于NumberOfFunctions 字段的值。
⑤Base
导出函数序号的起始值,将AddressOfFunctions 字段指向的入口地址表的索引号加上这个起始值就是对应函数的导出序号。假如Base 字段的值为x,那么入口地址表指定的第1个导出函数的序号就是x;第2个导出函数的序号就是x+1。总之,一个导出函数的导出序号等于Base 字段的值加上其在入口地址表中的位置索引值。
⑥AddressOfNames 和 AddressOfNameOrdinals
均为RVA 值。前者指向函数名字符串地址表。这个地址表是一个双字数组,数组中的每一项指向一个函数名称字符串的RVA。数组的项数等NumberOfNames 字段的值,所有有名称的导出函数的名称字符串都定义在这个表中;后者指向另一个word 类型的数组(注意不是双字数组)。数组项目与文件名地址表中的项目一一对应,项目值代表函数入口地址表的索引,这样函 数名称与函数入口地址关联起来。
举个例子,加入函数名称字符串地址表的第n 项指向一个字符串“MyFunction”,那么可以去查找 AddressOfNameOrdinals 指向的数组的第n 项,假如第n 项中存放的值是x,则表示AddressOfFunctions 字段描述的地址表中的第x 项函数入口地址(aaaa)对应的名称就是“MyFunction”,这时这个函数的全部信息就可以如下描述。
函数名称:MyFunction 导出序号:Base的值+x 入口地址:aaaa
可以看到,AddressOfNameOrdinals字段描述的数组仅仅起了一个桥梁的作用。
已知函数的导出序号,如何得到入口地址呢?
①定位到PE 文件头。
②从PE 文件头中的 IMAGE_OPTIONAL_HEADER32 结构中取出数据目录表,并从第一个数据目录中得到导出表的RVA。
③从导出表的 Base 字段得到起始序号。
④将需要查找的导出序号减去起始序号,得到函数在入口地址表中的索引。
⑤检测索引值是否大于导出表的 NumberOfFunctions 字段的值,如果大于后者的话,说明输入的序号是无效的。
⑥用这个索引值在 AddressOfFunctions 字段指向的导出函数入口地址表中取出相应的项目,这就是函数入口地址的RVA 值,当函数被装入内存的时候,这个RVA 值加上模块实际装入的基地址,就得到了函数真正的入口地址。
4.从函数名称查找入口地址
已知导出函数的名称,如何得到入口地址呢?
①最初的步骤是一样的,那就是首先得到导出表的地址。
②从导出表的NumberOfNames 字段得到已命名函数的总数,并以这个数字作为循环的次数来构造一个循环。
③从AddressOfNames 字段指向得到的函数名称地址表的第一项开始,在循环中将每一项定义的函数名与要查找的函数名相比较,如果没有任何一个函数名是符合的,表示文件中没有指定名称的函数。
④如果某一项定义的函数名与要查找的函数名符合,那么记下这个函数名在字符串地址表中的索引值,然后在AddressOfNamesOrdinals 指向的数组中以同样的索引值取出数组项的值,我们这里假设这个值是x。
⑤最后,以 x 值作为索引值,在 AddressOfFunctions 字段指向的函数入口地址表中获取的 RVA 就是函数的入口地址。
一般情况下病毒程序就是通过函数名称查找入口地址的,因为病毒程序作为一段额外的代码被附加到可执行文件中的,如果病毒代码中用到某些 API 的话,这些 API 的地址不可能在宿主文件的导出表中为病毒代码准备好。因此只能通过在内存中动态查找的方法来实现获取API 的地址。