Linux 中的汇编语言(一)

在阅读Linux源代码时,你可能碰到一些汇编语言片段,有些汇编语言出现在以.S为扩展名的汇编文件中,在这种文件中,整个程序全部由汇编语言组成。有些汇编命令出现在以.c为扩展名的C文件中,在这种文件中,既有C语言,也有汇编语言,我们把出现在C代码中的汇编语言叫所“内嵌”汇编。不管这些汇编代码出现在哪里,它在一定程度上都成为阅读源代码的拦路虎。

 

尽管C语言已经成为编写操作系统的主要语言,但是,在操作系统与硬件打交道的过程中,在需要频繁调用的函数中以及某些特殊的场合中,C语言显得力不从心,这时,繁琐但又高效的汇编语言必须粉墨登场。因此,在了解一些硬件的基础上,必须对相关的汇编语言知识也所有了解。

 

读者可能有过在DOS操作系统下编写汇编程序的经历,也具备一定的汇编知识。但是,在Linux 的源代码中,你可能看到了与Intel的汇编语言格式不一样的形式,这就是AT&T386汇编语言。

 

1 AT&TIntel汇编语言的比较

我们知道,LinuxUnix家族的一员,尽管Linux的历史不长,但与其相关的很多事情都发源于Unix。就Linux所使用的386汇编语言而言,它也是起源于UnixUnix最初是为PDP11开发的,曾先后被移植到VAX68000系列的处理器上,这些处理器上的汇编语言都采用的是AT&T的指令格式。当Unix被移植到i386时,自然也就采用了AT&T的汇编语言格式,而不是Intel的格式。尽管这两种汇编语言在语法上有一定的差异,但所基于的硬件知识是相同的,因此,如果你非常熟悉Intel的语法格式,那么你也可以很容易地把它“移植“到AT&T来。下面我们通过对照IntelAT&T的语法格式,以便于你把过去的知识能很快地“移植”过来。

 

1、前缀

 

Intel的语法中,寄存器和和立即数都没有前缀。但是在AT&T中,寄存器前冠以“%”,而立即数前冠以“$”。在Intel的语法中,十六进制和二进制立即数后缀分别冠以“h”和“b”,而在AT&T中,十六进制立即数前冠以“0x”,下面给出几个相应的例子:

 

Intel语法:

mov eax,8

mov ebx,0ffffh

int 80h

 

AT&T语法:

movl $8,%eax

movl $0xffff,%ebx

int $0x80

 

2、操作数的方向

IntelAT&T操作数的方向正好相反。在Intel语法中,第一个操作数是目的操作数,第二个操作数源操作数。而在AT&T中,第一个数是源操作数,第二个数是目的操作数。由此可以看出,AT&T 的语法符合人们通常的阅读习惯。

 

例如:在Intel中, mov eax,[ecx]

AT&T中,movl (%ecx),%eax

 

3、内存单元操作数

 

从上面的例子可以看出,内存操作数也有所不同。在Intel的语法中,基寄存器用“[]”括起来,而在AT&T中,用“()”括起来。

 

例如: Intel中,mov eax,[ebx+5]

AT&Tmovl 5(%ebx),%eax

 

4、间接寻址方式

 

Intel的语法比较,AT&T存储器间接寻址方式可能更晦涩难懂一些。Intel的指令格式是segreg:[base+index*scale+disp],而AT&T的格式是%segreg:disp(base,index,scale)。其中index/scale/disp/segreg全部是可选的,完全可以简化掉。如果没有指定scale而指定了index,则scale的缺省值为1segreg段寄存器依赖于指令以及应用程序是运行在实模式还是保护模式下,在实模式下,它依赖于指令,而在保护模式下,segreg是多余的。在AT&T中,当立即数用在scale/disp中时,不应当在其前冠以“$”前缀,下面给出其语法及几个相应的例子。

 

Intel语法

指令 foo,segreg:[base+index*scale+disp]

mov eax,[ebx+20h]

add eax,[ebx+ecx*2h

lea eax,[ebx+ecx]

sub eax,[ebx+ecx*4h-20h]

 

AT&T语法

指令 %segreg:disp(base,index,scale),foo

Movl 0x20(%ebx),%eax

Addl (%ebx,%ecx,0x2),%eax

Leal (%ebx,%ecx),%eax

Subl -0x20(%ebx,%ecx,0x4),%eax

 

从例子就可以看出AT&T的语法比较晦涩难懂因为[base+index*scale+disp]一眼就可以看出其含义disp(base,index,scale)则不可能做到这点。

 

这种寻址方式常常用在访问数据结构数组中某个特定元素内的一个字段,其中,base为数组的起始地址,scale为每个数组元素的大小,index为下标。如果数组元素还是一个结构,则disp为具体字段在结构中的位移。

 

5、操作码的后缀

 

在上面的例子中你可能已注意到,在AT&T的操作码后面有一个后缀,其含义就是指出操作码的大小。“l”表示长整数(32位),“w”表示字(16位),“b”表示字节(8位)。而在Intel的语法中,则要在内存单元操作数的前面加上byte ptr word ptrdword ptr,“dword”对应“long”。下面给出几个相应的例子:

 

Intel语法

mov al,bl

mov ax,bx

mov eax,ebx

mov eax, dword ptr [ebx]

 

AT&T语法

movb %bl,%al

movw %bx,%ax

movl %ebx,%eax

movl (%ebx),%eax

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值