ARM体系结构学习笔记

最新推荐文章于 2024-09-12 15:19:24 发布

落叶未闻知秋声～

最新推荐文章于 2024-09-12 15:19:24 发布

阅读量605

点赞数 12

文章标签： arm开发学习笔记物联网 linux

本文链接：https://blog.csdn.net/weixin_59613755/article/details/136219552

版权

嵌入式:
   应用层: 编程基础, IO 多进程多线程网络编程数据库 C++/qt 应用工程师
   底层: 嵌入式的入门课程
       ARM体系结构与接口编程: 硬件(CPU)如何运行程序? 程序如何控制硬件的? 裸机工程师
       系统移植: 在硬件上移植操作系统系统平台搭建
       Linux驱动开发: 在Linux系统中编写安装定制的设备驱动
       STM32开发 :

   项目开发:

ARM体系结构:
   硬件(CPU)如何运行程序?
接口编程:
   程序如何控制硬件的?

交叉开发: 程序的编写编译在 PC机上(宿主机) 但运行在开发板(目标机)

计算机的基本组成部分:
   输入设备
   输出设备
   存储器
   运算器
   控制器
   总线

计算机 X64(64位) x86(32位) stm32 8位(C51,STM8) 16位

存储器: 用于存储程序运行过程中的一些数据缓存
   金字塔结构速度排序

   寄存器 : 速度最快成本最高的存储器通常以"个"计在CPU中相当于CPU的"手"
   高速缓存: cache 速度等同与CPU 成本高通常以 KB或M计
   内存(RAM): 内存条运行内存程序需要RAM(代码,数据段) 成本一般 G
   外存(ROM): 硬盘 U盘光盘网盘
       硬盘: 成本低 T
           机械硬盘: 转速 5400 7200 硬盘接口: STAT(600m) M.2(固态) SCACS
           固态硬盘: 使用FLASH 存储读写有限次数写操作要复杂与写操作
                       通常写入数据前需要擦除且是按块擦除的
                       访问读通常也按块读取
           负载均衡:
CPU中:
   运算器: ALU 做运算 + - ...
   控制器: 统筹整个系统的工作, 仲裁

CPU: 中央处理器一般不能独立运行程序只有寄存器运算器控制器总线
MCU: 微控制器可以独立运行程序即有CPU + RAM + ROM 构成
FPU: 硬件浮点运算单元专门用于进行浮点运算
GPU: 多个FPU + 多控制器构成核心多 128 256
APU: (AI核心) 硬件神经网络

总线: 专门用于 CPU与各个设备间通信
单总线:
多总线:

嵌入式开的的特点:
   开发环境的不同: 交叉开发环境
   以应用为中心, 围绕实际功能设计软件和硬件量体裁衣

ARM公司:
   提出ARM架构使用精简处理器指令集
   整体上, ARM架构芯片功耗低,成本低
   嵌入式应用中,大部分CPU使用ARM架构

ARM架构: ARM公司开发的一种CPU处理器结构

ARM生态链:
   ARM公司: 做CPU架构设计 ARM 出解决方案的
   芯片公司: 三星,华为,... 设计制造芯片
   开发板设计公司: 做开发板以及基本驱动程序
   产品开发公司: 大量中小型嵌入式企业
       使用开发板或自己设计硬件开发板做应用

   软件层面:
   Linux系统: 开源免费 GPL协议
   智能手机: 嵌入式崛起安卓系统

ARM环境搭建:
   使用KEIL 调试功能,模拟ARM CPU运行情况

   1. 安装交叉编译工具即编译器参考环境搭建试验手册
       该编译器在 Windows下运行但编译的程序在ARM架构下运行

ARM CPU 架构发展和性能变化
   ARM7
   ARM9
   ...
   cortex系列:
   Cortex-A : 高性能型多用于多媒体图形图像 UI
   Cortex-R : 实时性能强多用于汽车运动控制等
   Cortex-M : 低功耗或低成本场景多作为单片机使用
       stm32 - Cortex-M3

cpu运行程序逻辑:
   CPU在时钟系统的驱动下, 不断从ARM中取出预先编译好的程序指令然后执行

机器指令: 有汇编或其他高级语言编译得到的二进制指令 CPU只能识别这个

armCPU寄存器: 是cpu留给程序的接口类似于人的双手
   CPU中主要有 R0-R12 13个通用寄存器没有专用的特定功能
               r13 sp 栈指针寄存器专用于存储程序栈指针
               r14 lr 链接寄存器     用于程序跳转返回的实现或模式切换
               r15 pc 程序计数器用于存储下一条将要执行的指令的地址
                                       实际存储的是取址的指令地址
                                       修改该寄存器中的值即可实现程序跳转
   CPSR: 程序状态寄存器用于存储程序状态(ZNCV位 ...)
                   nzcv为: 条件位存储计算过程中的一些特定情况
                   模式位: [4:0] 存储CPU的模式修改模式位可以主动让CPU进入指定模式
                   irq/fiq使能位 ...
               SPSR: 程序状态备份寄存器

CPU状态:
   ARM状态: 在该状态下运行ARM指令 4字节对齐 NOP 运行速度快指令更耗费空间
   thumb状态: 在该状态下运行thumb指令 2字节对齐指令密度更高运行效率会有所降低

CPU模式: 目的1 为了安全 2 为了处理异常
   ARMCPU 提供了 7种模式每一种模式都有 R0-R15 CPSR SPSR(usr,sys模式没有)
           usr sys abort svc irq fiq undef
           用户模式系统终止管理员中断快速中断未定义
模式位 10000 11111 10111 10011 10010 10001 11011

寄存器个数 17个 0 3 3 3 8 3
ARMcpu 一共有 37 个寄存器有7中模式通常

   非特权模式 : usr
   特权模式: 除usr模式外有特权可以主动修改cpsr
       非异常模式: sys
       异常模式 : 除sys和usr外指在CPU发生异常情况时会主动进入的模式

什么叫异常? CPU中的异常是指,CPU遇到的一些特定情况将这些特定情况统称为异常
   armcpu有哪些异常?
   复位异常: 复位键被点击了产生了复位信号                CPU将自动进入svc模式
   未定义指令异常: CPU从内存中得到了一条不识别的指令                 undef 用于扩展指令
   软中断异常 : 触发了软中断                                         svc 用于实现系统调用
   指令预取异常: CPU从内存中取一条指令失败了 abort 用于虚拟内存的刷新
   数据异常 : a/0                                             abort 处理非法运算
   中断异常 : 触发了中断                                        irq 处理中断事件
   快速中断异常触发了快速中断                                    fiq 处理快速中断事件

中断: 指事件(中断源) 打断CPU当前正在执行的程序, 转而去处理中断事件
   处理完毕后,回到打断位置继续向后执行

(中断源): 系统中能够产生中断信号的来源
   外部中断: 中断信号来自芯片外部通过GPIO 传入的
   内部中断: 芯片内部的一些设备产生的 timer uart wdt ....

异常处理流程:
   硬件处理: 由CPU在触发异常时自动完成的动作
   4大步 3小步
       1. 备份 CPSR 到对应模式的 SPSR 为了恢复程序状态做准备
       2. 备份 PC到对应模式的LR 为了处理完毕异常后可以返回到异常打断处理继续
       3. 修改 CPSR
           1) 设置CPU 为ARM状态因为异常的处理都是ARM指令
           2) 设置CPSR 中模式位为对应异常模式
           3) 禁止某些中断(f/i) 若有必要例如 fir触发时 irq中断位设置为1 屏蔽
       4. 设置PC 到对应异常向量的入口即程序入口

异常向量的入口??? 有CPU 规定的对应异常的处理程序的入口地址
异常向量重定向功能 CPU支持
入口:
0x00   复位异常: 复位键被点击了产生了复位信号                CPU将自动进入svc模式
0x04   未定义指令异常: CPU从内存中得到了一条不识别的指令                 undef 用于扩展指令
0x08   软中断异常 : 触发了软中断                                         svc 用于实现系统调用
0x0c   指令预取异常: CPU从内存中取一条指令失败了 abort 用于虚拟内存的刷新
0x10   数据异常 : a/0                                             abort 处理非法运算
0x14   保留        为了后续可以扩展异常
0x18   中断异常 : 触发了中断                                        irq 处理中断事件
0x1c     快速中断异常触发了快速中断                                    fiq 处理快速中断事件

   软件处理: 由编程者解决具体的问题
   1, 保存现场公用寄存器入栈 r0-r12, lr
   2, 处理异常
   3, 恢复现场从栈中取出 R0-R12, lr--> PC , 恢复CPSR 从 spsr中恢复

异常的优先级问题?
   1. reset 复位异常
   2、Data Abort
   3、FIQ
   4、IRQ
   5、Prefetch Abort
   6、SWI
   7、Undefined instruction

思考?
   fiq 快速中断 irq 中断
   问快速中断为何比中断快 ,快在什么地方
       1.fiq 优先级高于irq
       2.fiq 独立寄存器多保存现场与恢复现场快
       3.fiq 位于异常向量表末尾, 可以不必要跳转直接开始处理

流水线: 目的提高指令执行的效率
   一条ARM指令的执行主要有3个步骤
   取址: 从内存中加载指令到 CPU
   译码: 解锁执行需要的寄存器
   执行: 指令执行对应操作

   假设取址 5周期译码 3周期执行 1周期
   执行一条指令 9周期
   有100条执行需要顺序执行 900周期
   若为3级流水线问 100条指令需要多少周期可以完成? 515个周期

多级流水线: 3级 5级 9级 11级
   指令执行的周期并非一致多周期指令将阻塞流水线
   流水线打断执行了跳转指令异常触发了

ARM指令集: RISC：精简指令集处理器   追求的是结构的简化功耗的降低
                   指令长度是固定舍弃了一些复杂指令转而由多个简单指令取完成复杂指令的工作
                   嵌入式应用场合, 低功耗, 对成本敏感的场景

   X86 CISC：复杂指令集处理器追求的是运行效率
                   指令集长度不固定所有指令都追求硬件实现结构复杂功耗高

ARM汇编指令: 目的认识汇编, 从而更好的进行C语言编程
   RAM指令格式: 了解
   4字节宽度地址4字节对齐方便寻址

   指令码组成部分 :
   condition: 高4bit[31:28] 条件码 0-15 16个值
       条件码: 用于指令的条件执行 , ARM指定绝大部分都可以条件执行
       可以让程序不必要跳转而执行分支结构不打断流水线效率更高

   指令操作码: [24:21] 指令本身的编号可以有16种指令
   Rn: 第一操作寄存器第一个操作对象寄存器
   Rd: 目标寄存器用于存放输出结果的寄存器
   Rm: 第二操作寄存器或立即数或立即数移位
   S位: 用于指定该指令是否记录其状态到 CPSR中

汇编编程格式:
   1. 汇编指令编译后将生成一条对应值指令码
   2. 汇编伪指令编译后将生成一条或多条指令码
   3. 汇编操作(标志符号) .text .end ... loop:

.text 汇编代码段开始属于汇编操作
mov r0,#1 @ 汇编指令
.data 汇编数据段开始

.end 汇编代码结束

汇编中的类型:
ARM 约定:
Byte：8bits(1byte) 字节 char
Halfword：16bits(2byte) 半字 short
Word：32bits(4byte) 字 int
Doubleword：64bits （cortex-a）

数据搬移: mov mvn(~)
立即数: 使用12bit 按规则可以存放的数称立即数
   0 - 2^12-1
   12bit分两部分高4bit 存放循环右移的偶数次 A 10
                   低8bit 存放右移的数本身 FF

立即数定义: 一个数可以通过一个8bit数循环右移偶数位得到, 该数即立即数
           目的扩大了可以输入的值的值域范围 0-2^32 但不连续
mov r0,#0xff000

   0000 0000 0000 1111 1111 0000 0000 0000

   1111 1111 循环右移 10*2 20位得到

   0000 0000 0000 1111 1111 0000 0000 0000

循环右移:    桶型移位器硬件设备

练习:     判断下列数是否为立即数
100           是
0x F000000F 0xff 循环右移 4位是立即数
0X 0F0F0F0F       不是立即数
0X 12300       不是立即数
0x 12a00 是
0X 8070 不是

0X 12300
0000 0000 0000 0001 0010 0011 0000 0000

0X 12A00
0000 0000 0000 0001 0010 1100 0000 0000

0X 1060   不是
0000 0000 0000 0000 0001 0000 0110 0000

mvn 将数进行取反后在进行装载
   有效数: 一个数取反后是立即数

伪指令:
   ldr r0,=0x12345678

移位操作指令:
lsl   逻辑左移: 对无符号数操作 << 高位移出丢弃低位补0
lsr   逻辑右移: 对无符号数操作 >> 低位移出丢弃高位补0
asr   算数右移: 对有符号数操作 >> 低位移出丢弃高位补符号位
ror   循环右移: 低位移出补充到高位
1111 1111 1111 1111 1111 1111 1111 1011   >> 1 = -5

1111 1111 1111 1111 1111 1111 1111 1101 = -3

1111 1111 1111 1111 1111 1111 1111 1110 = -2

1111 1111 1111 1111 1111 1111 1111 1111 = -1
C语言实现循环右移:
unsigned int ROR(unsigned int a, char cnt)
{
   int f = 0;
   while(cnt--)
   {
       f = a & 1; //取出低位
       a >> 1; // 右移
       a = a | (f << 31); // 补充高位
   }
}

算数指令: 在指令后+s 后缀表示该指令要影响cpsr中的nzcv位若存在
   add 加法
   adc 带进位加法
   sub 减法
   sbc 带借位减法
   rsb 逆向减法
   rsc 带借位逆向减法
   mul 乘法指令

32位寄存器实现64位加法:
   a = 0x12345678 87654321
   b = 0x12345678 88888888
   a+b 0x2468acf1 0fedcba9
   a-b 0xffffffff fedcba99

r0 高32bit r1 低32bit
计算: a-b 使用ARM汇编实现

为运算指令:
位运算    C语言: &按位与 |按位或 ^按位亦或 ~按位取反 mvn
               and orr eor
逻辑运算:   !非 &&逻辑与 ||逻辑或

and & 运算规则: 按位操作与0得0 与1不变
orr | 按位操作或1得1 或0不变
eor ^ 按位操作相同为0 不同为1

0000 0000 0000 0000 0000 0000 1111 1111
0000 0000 0000 0000 0000 0000 0000 1111
0000 0000 0000 0000 0000 0000 1111 0000

位操作的应用:
   有一个数 a [31:0] 希望其中 [7:4] = 0 其他bit不变
a = **** **** **** **** **** **** [****] ****
a & 1111 1111 1111 1111 1111 1111 0000 1111 ~ 1111 0000
a & ~ 1111 0000
a = a & ~ (0xf << 4);
= **** **** **** **** **** **** [0000] ****

   有一个数 a [31:0] 希望其中 [7:4] = 0x7 其他bit不变
a = **** **** **** **** **** **** [****] ****
a & 1111 1111 1111 1111 1111 1111 0000 1111
= **** **** **** **** **** **** [0000] ****
a | 0000 0000 0000 0000 0000 0000 0111 0000
a | (0x7 << 4)
= **** **** **** **** **** **** [0111] ****

a = (a & ~ (0xf << 4)) | (0x7 << 4);

有一个数 a [31:0] 希望其中 [18:9] = 其他bit不变
a = **** **** **** *[*** **** ***]* **** ****
& ~(0x3ff << 9);
a = **** **** **** *[000 0000 000]* **** ****
| (0x123 << 9)

a = (a & ~ (0x3ff << 9)) | (0x123 << 9);

   有一个数 a [31:0] 希望其中 [m:n] = x 其他bit不变
   a = (a & ~ ( P << n)) | (x << n); 其中 P= 2^(m-n+1) - 1; P本质是位宽这么多个1的值

   判断一个数 a [31:0] 的 [8:4] == 0x12 ?
   **** **** **** **** **** ***[* ****] ****
   0000 0000 0000 0000 0000 0000 000[* ****] == 0x12
   对一个数的某些bit进行比较判断
   if( ( (a >> 4) & 0x1f ) == 0x12 )


位操作指令:
   bic 位清除指令用于清除指定的位
比较指令: 执行结果在 CPSR 中的 NZCV位体现不需要目标寄存器
   TST 测试指定位是否为0
   cmp 比较大小 > < == != >= <=
   teq 比较相等否 == !=

if(a > 0)
   a= 5;
else // <= 0
   a= 6;

条件执行与条件码: 在指令后边添加条件后缀表示条件执行
   共有16种条件就是根据cpsr中的nzcv位的状态来决定这条指令要执行否
   EQ 相等执行
   NE 不相等执行
   有符号数比较
   GT >
   GE >=
   LT <
   LE <=

跳转指令:
b : 不带链接的跳转类似 goto 实现循环
bl : 带链接的跳转就是跳转时会将PC指针备份到 lr寄存器中实现函数调用

汇编实现:
求 1+2+3 +.. 100 = ???

for(int i =1, sum = 0; i<= 100; i++) sum += i;
mov r0,#1
mov r1,#0
loop:
cmp r0,#100
addle r1,r0
addle r0,#1
ble loop @ 跳转到loop标记处

作业:
编译如下C代码为汇编指令:
switch(a)
{
   case 1: a=5; break;
   case 2: a=6;
   case 3: a=7; break;
   default: a=10;
}
end:
   a=1 ===> a=5
   a=2 ===> a=7
   a=3 ===> a=7
   a=4 ===> a=10

mov r0,#4
teq r0,#1 @ case 1:
moveq r0,#5 @相等时执行
beq _end     @break
teqne r0,#2 @ case 2: 前提是case1 没有命中
moveq r0,#6 @ a = 6
teqne r0,#3 @ case 3:
moveq r0,#7 @ a = 7
beq _end     @break
movne R0,#10 @default
_end:
nop

bl指令: 主要作用于函数调用
int addNum(int a,int b, int c)
{
   return a+b+c;
}

a = addNum(1,2,3);

C语言标准规范:
   规定函数的调用参数前4个参数使用 r0-r3传递超过4个的参数使用栈传递
   返回值通过R0传递

@ 准备参数
MOV R0,#1
MOV R1,#2
MOV R2,#3
@ 调用函数
bl addNum
nop
nop
nop

@ 汇编定义函数
addNum: @ r0,r1,r2 3个参数
   add r0,r1
   add r0,r2
   @ return
   mov pc,lr

快捷键:
shift + alt + @ 选择列

b,bl指令的特点:
   1.b/bl指令是一个相对跳转指令相对当前取址的指令位置向前或先后跳转指定的指令条数
   2.b/bl指令最大可以跳转的地址空间为 +- 32M
       指令除去 8BIT的条件码与指令码剩余24bit 用于存储跳转的指令条数
       Linux程序地址空间 0-4G
   b/bl属于短跳转 +- 32M
   长跳转/绝对跳转直接将要跳转的内存地址加载到PC寄存器中

内存操作指令:
   ldr : 读内存数据到寄存器中
   str : 写内存将寄存器中的数据写入到内存
       一次读写 4个字节
   ldrb / strb 一次读写 1个字节
   ldrh / strh 一次读写 2个字节

int a =5;
内存操作:
.data @ 数据段
@ int a =5
a: .word 5
@ char c = 'a'
c: .Byte 'a'
   .Byte 0 @ 空一个内存位置以满足下一个内存地址是2字节对齐的
@ short x = 7
x: .short 7

@ int arr[5] = {1,2,3,4,5}
arr: .word 1,2,3,4,5

思考如何访问数组?
arr[1] ...

前索引:
ldr r2,[r0, #4] @ arr[1] *(arr+1)

指针方式遍历数组:
int *p =arr;
while(p <= arr+5) *p++; // 先*p 然后再 p++;

@ 后索引
@ldr r1,[r0],#4 @ *p++;
@ldr r2,[r0],#4
@ldr r3,[r0],#4
@ ....
@ 自动索引
ldr r1,[r0,#4]! @ *++p; 先p++,然后再*P

练习: 求数组元素的和
int *p =arr;
int sum =0;
while(p <= arr+5) sum += *p++;

多寄存器操作指令:
   ldm : 连续从内存中读取多个整型数据到指定的多个寄存器中
   stm : 将多个寄存器中的数据写入到连续的内存中

栈:
   满栈: 栈指针指向的位置有数据
   空栈: 栈指针指向的位置无数据
   增栈: 存入数据时栈指针在向大地址方向移动
   减栈: 存入数据时栈指针在向小地址方向移动

   满增栈: 入栈 *++p 出栈 *p--;
   满减栈: 入栈 *--p 出栈 *p++;
   空增栈: 入栈 *p++ 出栈 *--p;
   空减栈: 入栈 *p-- 出栈 *++p;

   C标准指定: 栈使用满减栈 fd后缀

了解: 函数调用中栈的操作流程