ISA——x86指令、ARM指令、、

最新推荐文章于 2025-03-07 16:30:53 发布

zashizhi3299

最新推荐文章于 2025-03-07 16:30:53 发布

阅读量3.3k

点赞数 1

文章标签： ISA

本文链接：https://blog.csdn.net/zashizhi3299/article/details/85163521

版权

ISA（instruction set architecture）指令集维基定义https://en.wikipedia.org/wiki/Instruction_set_architecture

无论什么语言写的、实现什么功能、在何种处理器芯片上运行的程序，经过层层编译，最后都转化为一系列指令，指示硬件如何操作。这一系列指令就是指令集ISA，对于x86芯片就是x86指令集。指令集是软件和硬件之间的翻译。

具有不同微处理器可以共享一个ISA。例如，Intel Pentium和高级微型设备Athlon实现了几乎相同版本的x86指令集，但是具有完全不同的内部设计。

ISA的内容通常包括：支持的数据类型、存储状态（例如主存储器和寄存器）及其语义（例如存储器一致性和寻址模式）、指令集（包括计算机机器语言的机器指令集）和输入/输出模型。

目前市面上的CPU指令集分类主要分有两大阵营，一个是intel、AMD为首的复杂指令集CPU，另一个是以IBM、ARM为首的精简指令集CPU。不同品牌的CPU，其产品的架构也不相同，例如，Intel、AMD的CPU是X86架构的，而IBM公司的CPU是PowerPC架构，ARM公司是ARM架构。

X86和X87汇编指令

X86和X87汇编指令大全（有注释） 转载https://blog.csdn.net/bjbz_cxy/article/details/79467688

相关标准：？？？
---------- 一、数据传输指令 ----------------------------------------------------
它们在存贮器和寄存器、寄存器和输入输出端口之间传送数据.
1. 通用数据传送指令.
MOV 传送字或字节.
MOVSX 先符号扩展,再传送.
MOVZX 先零扩展,再传送.
PUSH 把字压入堆栈.
POP 把字弹出堆栈.
PUSHA 把AX,CX,DX,BX,SP,BP,SI,DI依次压入堆栈.
POPA 把DI,SI,BP,SP,BX,DX,CX,AX依次弹出堆栈.
PUSHAD 把EAX,ECX,EDX,EBX,ESP,EBP,ESI,EDI依次压入堆栈.
POPAD 把EDI,ESI,EBP,ESP,EBX,EDX,ECX,EAX依次弹出堆栈.
BSWAP 交换32位寄存器里字节的顺序
XCHG 交换字或字节.(至少有一个操作数为寄存器,段寄存器不可作为操作数)
CMPXCHG 比较并交换操作数.(第二个操作数必须为累加器AL/AX/EAX)
XADD 先交换再累加.(结果在第一个操作数里)
XLAT 字节查表转换.----BX指向一张256字节的表的起点,AL为表的索引值(0-255,即0-FFH);返回AL为查表结果.([BX+AL]->AL)
2. 输入输出端口传送指令.
IN I/O端口输入. ( 语法: IN 累加器, {端口号│DX} )
OUT I/O端口输出. ( 语法: OUT {端口号│DX},累加器 )输入输出端口由立即方式指定时, 其范围是 0-255; 由寄存器 DX 指定时,其范围是 0-65535.
3. 目的地址传送指令.
LEA 装入有效地址.例: LEA DX,string ;把偏移地址存到DX.
LDS 传送目标指针,把指针内容装入DS.例: LDS SI,string ;把段地址:偏移地址存到DS:SI.
LES 传送目标指针,把指针内容装入ES.例: LES DI,string ;把段地址:偏移地址存到ES:DI.
LFS 传送目标指针,把指针内容装入FS.例: LFS DI,string ;把段地址:偏移地址存到FS:DI.
LGS 传送目标指针,把指针内容装入GS.例: LGS DI,string ;把段地址:偏移地址存到GS:DI.
LSS 传送目标指针,把指针内容装入SS.例: LSS DI,string ;把段地址:偏移地址存到SS:DI.
4. 标志传送指令.
LAHF 标志寄存器传送,把标志装入AH.
SAHF 标志寄存器传送,把AH内容装入标志寄存器.
PUSHF 标志入栈.
POPF 标志出栈.
PUSHD 32位标志入栈.
POPD 32位标志出栈.
---------- 二、算术运算指令 ----------------------------------------------------
ADD 加法.
ADC 带进位加法.
INC 加 1.
AAA 加法的ASCII码调整.
DAA 加法的十进制调整.
SUB 减法.
SBB 带借位减法.
DEC 减 1.
NEG 求反(以 0 减之).
CMP 比较.(两操作数作减法,仅修改标志位,不回送结果).
AAS 减法的ASCII码调整.
DAS 减法的十进制调整.
MUL 无符号乘法.结果回送AH和AL(字节运算),或DX和AX(字运算),
IMUL 整数乘法.结果回送AH和AL(字节运算),或DX和AX(字运算),
AAM 乘法的ASCII码调整.
DIV 无符号除法.结果回送:商回送AL,余数回送AH, (字节运算);或商回送AX,余数回送DX, (字运算).
IDIV 整数除法.结果回送:商回送AL,余数回送AH, (字节运算);或商回送AX,余数回送DX, (字运算).
AAD 除法的ASCII码调整.
CBW 字节转换为字. (把AL中字节的符号扩展到AH中去)
CWD 字转换为双字. (把AX中的字的符号扩展到DX中去)
CWDE 字转换为双字. (把AX中的字符号扩展到EAX中去)
CDQ 双字扩展. (把EAX中的字的符号扩展到EDX中去)
---------- 三、逻辑运算指令 ----------------------------------------------------
AND 与运算.
OR 或运算.
XOR 异或运算.
NOT 取反.
TEST 测试.(两操作数作与运算,仅修改标志位,不回送结果).
SHL 逻辑左移.
SAL 算术左移.(=SHL)
SHR 逻辑右移.
SAR 算术右移.(=SHR)
ROL 循环左移.
ROR 循环右移.
RCL 通过进位的循环左移.
RCR 通过进位的循环右移.
以上八种移位指令,其移位次数可达255次.
移位一次时, 可直接用操作码. 如 SHL AX,1.
移位>1次时, 则由寄存器CL给出移位次数.
如 MOV CL,04 SHL AX,CL
---------- 四、串指令 ----------------------------------------------------------
DS:SI 源串段寄存器 :源串变址.
ES:DI 目标串段寄存器:目标串变址.
CX 重复次数计数器.
AL/AX 扫描值.
D标志 0表示重复操作中SI和DI应自动增量; 1表示应自动减量.
Z标志用来控制扫描或比较操作的结束.
MOVS 串传送.( MOVSB 传送字符. MOVSW 传送字. MOVSD 传送双字. )
CMPS 串比较.( CMPSB 比较字符. CMPSW 比较字. )
SCAS 串扫描.把AL或AX的内容与目标串作比较,比较结果反映在标志位.
LODS 装入串.把源串中的元素(字或字节)逐一装入AL或AX中.( LODSB 传送字符. LODSW 传送字. LODSD 传送双字. )
STOS 保存串.是LODS的逆过程.
REP 当CX/ECX<>0时重复.
REPE/REPZ 当ZF=1或比较结果相等,且CX/ECX<>0时重复.
REPNE/REPNZ 当ZF=0或比较结果不相等,且CX/ECX<>0时重复.
REPC 当CF=1且CX/ECX<>0时重复.
REPNC 当CF=0且CX/ECX<>0时重复.
---------- 五、程序转移指令 ----------------------------------------------------
1. 无条件转移指令 (长转移)
JMP 无条件转移指令
CALL 过程调用
RET/RETF 过程返回.
2. 条件转移指令 (短转移,-128到+127的距离内)( 当且仅当(SF XOR OF)=1时,OP1<OP2 )
JA/JNBE 不小于或不等于时转移.
JAE/JNB 大于或等于转移.
JB/JNAE 小于转移.
JBE/JNA 小于或等于转移.
以上四条,测试无符号整数运算的结果(标志C和Z).
JG/JNLE 大于转移.
JGE/JNL 大于或等于转移.
JL/JNGE 小于转移.
JLE/JNG 小于或等于转移.
以上四条,测试带符号整数运算的结果(标志S,O和Z).
JE/JZ 等于转移.
JNE/JNZ 不等于时转移.
JC 有进位时转移.
JNC 无进位时转移.
JNO 不溢出时转移.
JNP/JPO 奇偶性为奇数时转移.
JNS 符号位为 "0" 时转移.
JO 溢出转移.
JP/JPE 奇偶性为偶数时转移.
JS 符号位为 "1" 时转移.
3. 循环控制指令(短转移)
LOOP CX不为零时循环.
LOOPE/LOOPZ CX不为零且标志Z=1时循环.
LOOPNE/LOOPNZ CX不为零且标志Z=0时循环.
JCXZ CX为零时转移.
JECXZ ECX为零时转移.
4. 中断指令
INT 中断指令
INTO 溢出中断
IRET 中断返回
5. 处理器控制指令
HLT 处理器暂停, 直到出现中断或复位信号才继续.
WAIT 当芯片引线TEST为高电平时使CPU进入等待状态.
ESC 转换到外处理器.
LOCK 封锁总线.
NOP 空操作.
STC 置进位标志位.
CLC 清进位标志位.
CMC 进位标志取反.
STD 置方向标志位.
CLD 清方向标志位.
STI 置中断允许位.
CLI 清中断允许位.
---------- 六、伪指令 ----------------------------------------------------------
DW 定义字(2字节).
PROC 定义过程.
ENDP 过程结束.
SEGMENT 定义段.
ASSUME 建立段寄存器寻址.
ENDS 段结束.
END 程序结束.
---------- 七、处理机控制指令：标志处理指令 ------------------------------------
CLC 进位位置0指令
CMC 进位位求反指令
STC 进位位置为1指令
CLD 方向标志置1指令
STD 方向标志位置1指令
CLI 中断标志置0指令
STI 中断标志置1指令
NOP 无操作
HLT 停机
WAIT 等待
ESC 换码
LOCK 封锁
========== 浮点运算指令集 ======================================================
---------- 一、控制指令(带9B的控制指令前缀F变为FN时浮点不检查，机器码去掉9B)----
FINIT 初始化浮点部件机器码 9B DB E3
FCLEX 清除异常机器码 9B DB E2
FDISI 浮点检查禁止中断机器码 9B DB E1
FENI 浮点检查禁止中断二机器码 9B DB E0
WAIT 同步CPU和FPU 机器码 9B
FWAIT 同步CPU和FPU 机器码 D9 D0
FNOP 无操作机器码 DA E9
FXCH 交换ST(0)和ST(1) 机器码 D9 C9
FXCH ST(i) 交换ST(0)和ST(i) 机器码 D9 C1iii
FSTSW ax 状态字到ax 机器码 9B DF E0
FSTSW word ptr mem 状态字到mem 机器码 9B DD mm111mmm
FLDCW word ptr mem mem到状态字机器码 D9 mm101mmm
FSTCW word ptr mem 控制字到mem 机器码 9B D9 mm111mmm

FLDENV word ptr mem mem到全环境机器码 D9 mm100mmm
FSTENV word ptr mem 全环境到mem 机器码 9B D9 mm110mmm
FRSTOR word ptr mem mem到FPU状态机器码 DD mm100mmm
FSAVE word ptr mem FPU状态到mem 机器码 9B DD mm110mmm

FFREE ST(i) 标志ST(i)未使用机器码 DD C0iii
FDECSTP 减少栈指针1->0 2->1 机器码 D9 F6
FINCSTP 增加栈指针0->1 1->2 机器码 D9 F7
FSETPM 浮点设置保护机器码 DB E4
---------- 二、数据传送指令 ----------------------------------------------------
FLDZ 将0.0装入ST(0) 机器码 D9 EE
FLD1 将1.0装入ST(0) 机器码 D9 E8
FLDPI 将π装入ST(0) 机器码 D9 EB
FLDL2T 将ln10/ln2装入ST(0) 机器码 D9 E9
FLDL2E 将1/ln2装入ST(0) 机器码 D9 EA
FLDLG2 将ln2/ln10装入ST(0) 机器码 D9 EC
FLDLN2 将ln2装入ST(0) 机器码 D9 ED

FLD real4 ptr mem 装入mem的单精度浮点数机器码 D9 mm000mmm
FLD real8 ptr mem 装入mem的双精度浮点数机器码 DD mm000mmm
FLD real10 ptr mem 装入mem的十字节浮点数机器码 DB mm101mmm

FILD word ptr mem 装入mem的二字节整数机器码 DF mm000mmm
FILD dword ptr mem 装入mem的四字节整数机器码 DB mm000mmm
FILD qword ptr mem 装入mem的八字节整数机器码 DF mm101mmm

FBLD tbyte ptr mem 装入mem的十字节BCD数机器码 DF mm100mmm

FST real4 ptr mem 保存单精度浮点数到mem 机器码 D9 mm010mmm
FST real8 ptr mem 保存双精度浮点数到mem 机器码 DD mm010mmm

FIST word ptr mem 保存二字节整数到mem 机器码 DF mm010mmm
FIST dword ptr mem 保存四字节整数到mem 机器码 DB mm010mmm

FSTP real4 ptr mem 保存单精度浮点数到mem并出栈机器码 D9 mm011mmm
FSTP real8 ptr mem 保存双精度浮点数到mem并出栈机器码 DD mm011mmm
FSTP real10 ptr mem 保存十字节浮点数到mem并出栈机器码 DB mm111mmm

FISTP word ptr mem 保存二字节整数到mem并出栈机器码 DF mm011mmm
FISTP dword ptr mem 保存四字节整数到mem并出栈机器码 DB mm011mmm
FISTP qword ptr mem 保存八字节整数到mem并出栈机器码 DF mm111mmm

FBSTP tbyte ptr mem 保存十字节BCD数到mem并出栈机器码 DF mm110mmm

FCMOVB ST(0),ST(i) <时传送机器码 DA C0iii
FCMOVBE ST(0),ST(i) <=时传送机器码 DA D0iii
FCMOVE ST(0),ST(i) =时传送机器码 DA C1iii
FCMOVNB ST(0),ST(i) >=时传送机器码 DB C0iii
FCMOVNBE ST(0),ST(i) >时传送机器码 DB D0iii
FCMOVNE ST(0),ST(i) !=时传送机器码 DB C1iii
FCMOVNU ST(0),ST(i) 有序时传送机器码 DB D1iii
FCMOVU ST(0),ST(i) 无序时传送机器码 DA D1iii
---------- 三、比较指令 --------------------------------------------------------
FCOM ST(0)-ST(1) 机器码 D8 D1
FCOMI ST(0),ST(i) ST(0)-ST(1) 机器码 DB F0iii
FCOMIP ST(0),ST(i) ST(0)-ST(1)并出栈机器码 DF F0iii
FCOM real4 ptr mem ST(0)-实数mem 机器码 D8 mm010mmm
FCOM real8 ptr mem ST(0)-实数mem 机器码 DC mm010mmm

FICOM word ptr mem ST(0)-整数mem 机器码 DE mm010mmm
FICOM dword ptr mem ST(0)-整数mem 机器码 DA mm010mmm
FICOMP word ptr mem ST(0)-整数mem并出栈机器码 DE mm011mmm
FICOMP dword ptr mem ST(0)-整数mem并出栈机器码 DA mm011mmm

FTST ST(0)-0 机器码 D9 E4
FUCOM ST(i) ST(0)-ST(i) 机器码 DD E0iii
FUCOMP ST(i) ST(0)-ST(i)并出栈机器码 DD E1iii
FUCOMPP ST(0)-ST(1)并二次出栈机器码 DA E9
FXAM ST(0)规格类型机器码 D9 E5
---------- 四、运算指令 --------------------------------------------------------
FADD 把目的操作数 (直接接在指令后的变量或堆栈缓存器) 与来源操作数 (接在目的操作数后的变量或堆栈缓存器) 相加，并将结果存入目的操作数
FADDP ST(i),ST 这个指令是使目的操作数加上 ST 缓存器，并弹出 ST 缓存器，而目的操作数必须是堆栈缓存器的其中之一，最后不管目的操作数为何，经弹出一次后，目的操作数会变成上一个堆栈缓存器了
FIADD FIADD 是把 ST 加上来源操作数，然后再存入 ST 缓存器，来源操作数必须是字组整数或短整数形态的变数

FSUB 减
FSUBP
FSUBR 减数与被减数互换
FSUBRP
FISUB
FISUBR

FMUL 乘
FMULP
FIMUL

FDIV 除
FDIVP
FDIVR
FDIVRP
FIDIV
FIDIVR

FCHS 改变 ST 的正负值

FABS 把 ST 之值取出，取其绝对值后再存回去。

FSQRT 将 ST 之值取出，开根号后再存回去。

FSCALE 这个指令是计算 ST*2^ST(1)之值，再把结果存入 ST 里而 ST(1) 之值不变。ST(1) 必须是在 -32768 到 32768 (-215 到 215 )之间的整数，如果超过这个范围计算结果无法确定，如果不是整数 ST(1) 会先向零舍入成整数再计算。所以为安全起见，最好是由字组整数载入到 ST(1) 里。

FRNDINT 这个指令是把 ST 的数值舍入成整数，FPU 提供四种舍入方式，由 FPU 的控制字组(control word)中的 RC 两个位决定
RC 舍入控制
00 四舍五入
01 向负无限大舍入
10 向正无限大舍入
11 向零舍去

ARM指令

ARM微处理器的在较新的体系结构中支持两种指令集：ARM指令集和Thumb指令集。其中，ARM指令为32位的长度，Thumb指令为16位长度。Thumb指令集为ARM指令集的功能子集，但与等价的ARM代码相比较，可节省30%～40%以上的存储空间，同时具备32位代码的所有优点。

ARM架构包含了下述RISC特性：

读取/储存架构不支援地址不对齐内存存取（ARMv6内核现已支援）正交指令集（任意存取指令可以任意的寻址方式存取数据Orthogonal instruction set）大量的16 × 32-bit 寄存器阵列（register file）固定的32 bits 操作码（opcode）长度，降低编码数量所产生的耗费，减轻解码和流水线化的负担。大多均为一个CPU周期执行。为了补强这种简单的设计方式，相较于同时期的处理器如Intel 80286和Motorola 68020，还多加了一些特殊设计：

大部分指令可以条件式地执行，降低在分支时产生的负重，弥补分支预测器（branch predictor）的不足。算数指令只会在要求时更改条件编码（condition code）32-bit筒型位移器（barrel shifter）可用来执行大部分的算数指令和寻址计算而不会损失效能强大的索引寻址模式（addressing mode）精简但快速的双优先级中断子系统，具有可切换的暂存器组有个附加在ARM设计中好玩的东西，就是使用一个4-bit 条件编码 在每个指令前头，表示每支指令的执行是否为有条件式的

这大大的减低了在内存存取指令时用到的编码位，换句话说，它避免在对小型叙述如if做分支指令。有个标准的范例引用欧几里德的最大公因子算法：

在C编程语言中，循环为：

int gcd (int i, int j)

{

while (i != j) if (i > j) i -= j; else j -= i; return i;

}

在ARM 汇编语言中，循环为：

loop CMP Ri, Rj ;

设定条件为 "NE"(不等于) if (i != j) ; "GT"(大于) if (i > j), ; or "LT"(小于) if (i < j) SUBGT Ri, Ri, Rj ; 若 "GT"(大于), i = i-j; SUBLT Rj, Rj, Ri ; 若 "LT"(小于), j = j-i; BNE loop ; 若 "NE"(不等于)，则继续回圈这避开了then和else子句之间的分支。

另一项指令集的特色是，能将位移（shift）和回转（rotate）等功能并成"资料处理"型的指令（算数、逻辑、和暂存器之间的搬移），因此举例来说，一个C语言的叙述

a += (j << 2);在ARM之下，可简化成只需一个word和一个cycle即可完成的指令

ADD Ra, Ra, Rj, LSL #2这结果可让一般的ARM程式变得更加紧密，而不需经常使用内存存取，流水线也可以更有效地使用。即使在ARM以一般认定为慢速的速度下执行，与更复杂的CPU设计相比它仍能执行得不错。

ARM处理器还有一些在其他RISC的架构所不常见到的特色，例如PC-相对寻址（的确在ARM上PC为16个暂存器的其中一个）以及前递加或后递加的寻址模式。

另外一些注意事项是 ARM 处理器会随着时间，不断地增加它的指令集。某些早期的 ARM 处理器（比ARM7TDMI更早），譬如可能并未具备指令可以读取两 Bytes 的数量，因此，严格来讲，对这些处理器产生程式码时，就不可能处理如 C 语言物件中使用 "volatile short" 的资料型态。

ARM7 和大多数较早的设计具备三阶段的流水线化（Pipeline）：提取指令、解码，并执行。较高效能的设计，如 ARM9，则有五阶段的流水线化。提高效能的额外方式，包含一颗较快的加法器，和更广的分支预测逻辑线路。

这个架构使用“协处理器”提供一种非侵入式的方法来延伸指令集，可透过软件下 MCR、MRC、MRRC和MCRR 等指令来对协处理器寻址。协处理器空间逻辑上通常分成16个协处理器，编号分别从 0 至 15 ，而第15号协处理器（CP15）是保留用作某些常用的控制功能，像是使用高速缓存和记忆管理单元运算（若包含于处理器时）。

在 ARM 架构的机器中，周边装置连接处理器的方式，通常透过将装置的实体暂存器对应到 ARM 的内存空间、协处理器空间，或是连接到另外依序接上处理器的装置（如总线）。协处理器的存取延迟较低，所以有些周边装置（例如 XScale 中断控制器）会设计成可透过不同方式存取（透过内存和协处理器）。

Thumb

较新的ARM处理器有一种16-bit指令模式，叫做Thumb，也许跟每个条件式执行指令均耗用4位的情形有关。在Thumb模式下，较小的opcode有更少的功能性。例如，只有分支可以是条件式的，且许多opcode无法存取所有CPU的暂存器。然而，较短的opcode提供整体更佳的编码密度（注：意指程式码在内存中占的空间），即使有些运算需要更多的指令。特别在内存埠或总线宽度限制在32 以下的情形时，更短的Thumb opcode能更有效地使用有限的内存带宽，因而提供比32位程式码更佳的效能。典型的嵌入式硬件仅具有较小的32-bit datapath寻址范围以及其他更窄的16 bits寻址（例如Game Boy Advance）。在这种情形下，通常可行的方案是编译成 Thumb 程式码，并自行最佳化一些使用（非Thumb）32位指令集的CPU相关程式区，因而能将它们置入受限的32-bit总线宽度的内存中。

首颗具备 Thumb 技术的处理器是 ARM7TDMI。所有 ARM9 和后来的家族，包括 XScale 都纳入了 Thumb 技术。

Jazelle

ARM 还开发出一项技术，Jazelle DBX (Direct Bytecode eXecution)，允许它们在某些架构的硬件上加速执行Java bytecode，就如其他执行模式般，当呼叫一些无法支援bytecodes的特殊软件时，能提供某些bytecodes的加速执行。它能在现存的ARM与Thumb模式之间互相执行。

首颗具备Jazelle技术的处理器是ARM926EJ-S：Jazelle以一个英文字母'J'标示于CPU名称中。它用来让手机制造商能够加速执行Java ME的游戏和应用程式，也因此促使了这项技术不断地开发。

Thumb-2

Thumb-2 技术首见于 ARM1156 核心 ，并于2003年发表。Thumb-2 扩充了受限的 16-bit Thumb 指令集，以额外的 32-bit 指令让指令集的使用更广泛。因此 Thumb-2 的预期目标是要达到近乎 Thumb 的编码密度，但能表现出近乎 ARM 指令集在 32-bit 内存下的效能。

Thumb-2也从 ARM 和 Thumb 指令集中派生出多种指令，包含位栏（bit-field）操作、分支建表（table branches），和条件执行等功能。

Thumb Execution Environment (ThumbEE)

ThumbEE，也就是所谓的Thumb-2EE，，业界称为Jazelle RCT技术，于2005年发表，首见于 Cortex-A8 处理器。ThumbEE 提供从 Thumb-2 而来的一些扩充性，在所处的执行环境（Execution Environment）下，使得指令集能特别适用于执行阶段（Runtime）的编码产生（例如即时编译）。Thumb-2EE 是专为一些语言如 Limbo、Java、C#、Perl 和 Python，并能让即时编译器能够输出更小的编译码却不会影响到效能。

ThumbEE 所提供的新功能，包括在每次存取指令时自动检查是否有无效指标，以及一种可以执行阵列范围检查的指令，并能够分支到分类器（handlers），其包含一小部份经常呼叫的编码，通常用于高阶语言功能的实作，例如对一个新物件做内存配置。

进阶 SIMD (NEON)

进阶 SIMD 延伸集，业界称为NEON技术，它是一个结合 64 和 128 bit 的 SIMD（Single Instruction Multiple Data 单指令多重数据）指令集，其针对多媒体和讯号处理程式具备标准化加速的能力。NEON 可以在 10 MHz 的 CPU 上执行 MP3 音效解码，且可以执行 13 MHz 频率以下的 GSM AMR (Adaptive Multi-Rate) 语音编码。NEON具有一组广泛的指令集、各自的寄存器阵列，以及独立执行的硬件。NEON 支援 8-, 16-, 32- 和 64-bit 的整数及单精度浮点数据，并以SIMD 的方式运算，执行图形和游戏处理中关于语音/视讯的部分。SIMD 在向量超级处理机中是个决定性的要素，它具备同时多项处理功能。在 NEON 技术中，SIMD 最高可支援到同时 16 个运算。

VFP

VFP 是在协同处理器针对ARM架构的衍生技术。它提供低成本的单精度和倍精度浮点运算能力，并完全相容于ANSI/IEEE Std 754-1985 二进制浮点算数标准。VFP 提供大多数适用于浮点运算的应用，例如PDA、智慧手机、语音压缩与解压、3D图像以及数位音效、打印机、机上盒，和汽车应用等。VFP 架构也支援 SIMD（单指令多重数据）平行化的短向量指令执行。这在图像和讯号处理等应用上，非常有助于降低编码大小并增加输出效率。

在ARM-based处理器中，其他可见的浮点、或 SIMD 的协同处理器还包括了 FPA, FPE, iwMMXt。他们提供类似 VFP 的功能但在opcode层面上来说并不具有相容性。

安全性扩充 (TrustZone)

TrustZone(TM) 技术出现在 ARMv6KZ 以及较晚期的应用核心架构中。它提供了一种低成本的方案，针对系统单芯片（SoC）内加入专属的安全核心，由硬件建构的存取控制方式支援两颗虚拟的处理器。这个方式可使得应用程式核心能够在两个状态之间切换（通常改称为领域（worlds）以避免和其他功能领域的名称混淆），在此架构下可以避免资讯从较可信的核心领域泄漏至较不安全的领域。这种内核领域之间的切换通常是与处理器其他功能完全无关联性（orthogonal），因此各个领域可以各自独立运作但却仍能使用同一颗内核。内存和周边装置也可因此得知内核运作的领域为何，并能针对这个方式来提供对装置的机密和编码进行存取控制。典型的 TrustZone 技术应用是要能在一个缺乏安全性的环境下完整地执行操作系统，并在可信的环境下能有更少的安全性的编码。