1.什么是栈
栈是一种计算机系统中的数据结构,它按照先进后出的原则存储数据,先进入的数据被压入栈底,最后的数据在栈顶,需要读数据的时候从栈顶开始弹出数据(最后一个数据被第一个弹出来),是一种特殊的线性表。栈的操作常用的有进栈(PUSH),出栈(POP),还有常用的标识栈顶和栈底。
可以把栈想象成一摞扑克牌一样,一张一张叠加起来。(如图 1的a1,a2,……,an)。
进栈(PUSH):将一个数据放入栈里叫进栈(PUSH),相当于在扑克牌的在最上面放了一张新的扑克牌。
出栈(POP):将一个数据从栈里取出叫出栈(POP),相当于在扑克牌的在最上面拿走了一张扑克牌。
栈顶:常用寄存器ESP,ESP是栈指针寄存器,其内存放着一个指针,该指针永远指向系统栈最上面一个栈帧的栈顶。
栈底:常用寄存器EBP,EBP是基址指针寄存器,其内存放着一个指针,该指针永远指向系统栈最上面一个栈帧的底部。
图 1 栈示意图
2.函数调用栈
了解了什么是栈,现在来观察栈在内存中分布情况。以Windows 32位平台为例,进程有4GB大小的虚拟地址空间,其中1GB留给系统内核,3GB是进程自身拥有。一个进程大致的内存布局如图 2所示。
图 2 进程的内存布局
代码段:存放可执行程序的代码,可读不可写。
数据段:存放程序中已经初始化的静态(全局)变量,可读写。
bss段:存放程序中未初始化的静态(全局)变量,可读写。
堆(heap):存放动态分配的内容,需要程序员手动分配和释放。
栈(stack):存放局部变量,如函数的参数、返回地址、局部变量等,由系统自动分配和释放
2.1背景知识
栈增长方向:高地址->低地址。
ESP:栈指针寄存器,指向栈顶的低地址。
EBP:基址指针寄存器,指向栈底的高地址。
EIP:指令指针,存储即将执行的程序指令的地址。
函数调用约定:
图 3 函数调用约定
2.2函数调用开始
在调用一个函数时,系统会为这个函数分配一个栈帧,栈帧空间为该函数所独有。
调用者调用一个函数的过程大致如下:
(1) 函数参数从右到左入栈;
(2)返回地址入栈;
(3)上一函数ebp入栈。
在上一函数ebp入栈后,就开辟了被调函数的新栈帧,接下来便是被调函数临时变量入栈等操作,如果被调函数里有继续调用新函数的操作,将继续开始上述的一系列操作,不断循环嵌套下去。图 4表示函数调用过程中栈的布局情况。
图 4 函数调用过程中栈的布局情况
2.3函数调用结束
函数调用结束时的变化,主要就是按相反的顺序将数据弹出栈:
(1)弹出临时变量;
(2)弹出调用函数的ebp值,存到ebp寄存器中;
(3)弹出返回地址,存到eip寄存器中。
返回地址即是用call指令调用函数时下一条指令的地址,存到eip中,程序就知道在调用完后继续执行下一条指令。
3. 栈溢出原理
栈溢出是指向栈中写入了超出限定长度的数据,溢出的数据会覆盖栈中其它数据,从而影响程序的运行。
如果我们计算好溢出的长度,编写好溢出数据,让我们想要的地址数据正好覆盖到函数返回地址,那么被调函数调用完返回主函数时,就会跳转到我们覆盖的地址上。
3.1操作环境
(1)操作系统:Microsoft Windows 7 Professional Service Pack 1
(2)编译器:VC++ 6.0
3.2代码部分
代码很简单,先是定义了两个void类型的函数,一个是HelloWord()函数,作用是打印“Hello World”;一个是Fun()函数,定义了一个包含5个int类型的数组,给数组赋初值,并且将HelloWord()函数的地址强制转换成int型后赋给arr[6]。最后定义了一个main()函数,调用Fun()。
图 5 源码
将HelloWord()函数的地址强制转换成int型后赋给arr[6]是栈溢出的关键。按照正常思维,最后的结果应该是给arr[5]赋初值,然后返回0,结束程序,DOS窗口不打印任何信息。但真正的结果如图 6所示。
图 6 执行结果
3.3代码分析
首先打开一个空函数,观察反汇编代码,得到VC++ 6.0为每个函数分配的原始堆栈空间大小,即40h。这一步是为后面确定函数参数的个数做准备。
图 7 代码分析1
真正进入我们的栈溢出代码中,在主函数的Fun()函数调用处下断点,打开反汇编界面,运行程序至断点处。此时内存空间执行到00401148处。
图 8 代码分析2
此时注意Fun函数的下一句的地址0040114D,这就是即将被压入堆栈的Fun()函数的返回值地址。
图 9 代码分析3
执行call后跳转至00401005处,此处是一个无条件跳转指令。
图 10 代码分析4
执行jmp后,跳转至004010D0处,此时观察图 10,发现指令“sub esp,54h”。空函数的堆栈大小为40h,54h减去40h即为本函数的局部变量大小,恰好等于arr数组的大小。
图 11 代码分析5
执行完前两句代码,提升堆栈后,观察内存窗口,发现0040114D被压入堆栈,这就是Fun()函数返回值地址。
图 12 代码分析6
执行代码,分析反汇编。发现是在为函数堆栈赋初值“0xCCCCCCCC”,其实就是硬编码,代表int 3中断。
图 13 代码分析7
执行代码,分析反汇编。是为arr数组赋初值,注意arr数组只有5个int类型的大小。
图 14 代码分析8
此处是栈溢出的重点。0018FEF8处的内容本来是0040114D,即Fun()函数返回值的地址,现在把0040100F放入。即把HelloWord()函数的地址替换Fun()函数返回值的地址。
图 15 代码分析9
执行代码,分析反汇编。前面的pop指令说明已经开始清理堆栈,恢复现场。注意此时EIP和ESP的值的变化。
图 16 代码分析10
执行ret。Ret执行相当于pop eip,EIP发生变化。按照正常思路,此时把Fun()函数的返回值0040114D弹入EIP中。但是由于我们构造的栈溢出代码,EIP就变为了0040100F,此处即开始执行HelloWord()函数。
图 17 代码分析11
Jmp到00401030后,观察代码,即发现了printf(“Hello World”);代码。这段就是栈溢出的结果。
图 18 代码分析12
图 19 堆栈图
这只是最基本的栈溢出漏洞的分析,属于新手扫盲的范畴,二进制漏洞的学习研究仍然任重道远。