大字节序小字节序

最新推荐文章于 2023-11-22 03:00:00 发布

zhonggren

最新推荐文章于 2023-11-22 03:00:00 发布

阅读量443

点赞数

文章标签：存储 byte 网络 network ibm struct

本文链接：https://blog.csdn.net/zhonggren/article/details/6475322

版权

一、引子
　　在各种计算机体系结构中，对于字节、字等的存储机制有所不同，因而引发了
计算机通信领域中一个很重要的问题，即通信双方交流的信息单元（比特、字节、
字、双字等等）应该以什么样的顺序进行传送。如果不达成一致的规则，通信双方
将无法进行正确的编/译码从而导致通信失败。目前在各种体系的计算机中通常采
用的字节存储机制主要有两种：
big-edian和little-endian。本文简要描述这两种存储机制的来历、特点和区别。
　　
　　为了叙述方便，下面先对本文中将要用到的两个术语做简单的定义。
　　1、MSB
　　MSB是Most Significant Bit/Byte的首字母缩写，通常译为最重要的位或者最
重要的字节。它通常用来表明在一个bit序列（如一个byte是8个bit组成的一个序
列）或者一个byte序列（如word是两个byte组成的一个序列）中对整个序列取值影
响最大的那个bit/byte。
　　2、LSB
　　LSB是Least Significant Bit/Byte的首字母缩写，通常译为最不重要的位或
者最不重要的字节。它通常用来表明在一个bit序列（如一个byte是8个bit组成的
一个序列）或者一个byte序列（如word是两个byte组成的一个序列）中对整个序
列取值影响最小的那个bit/byte。

二、endian的定义
　定义：在计算机系统体系结构中用来描述在多字节数中各个字节的存储顺序。

三、各种endian
　　　　big-endian：计算机体系结构中一种描述多字节存储顺序的术语，在这种机制
中最重要字节（MSB）存放在最低端的地址上。采用这种机制的处理器有IBM3700系
列、PDP-10、Mortolora微处理器系列和绝大多数的RISC处理器。

+------+
| 0x34 |<-- 0x00000021
+------+
| 0x12 |<-- 0x00000020
+------+
图1：双字节数0x1234以big-endian的方式存在起始地址0x00000020中

　　在Big-Endian中，对于bit序列中的序号编排方式如下（以双字节数0x8B8A为
例）：
bit    0   1   2   3   4   5   6   7     8   9   10 11 12 13 14 15
     +--------------------------------------------------+
val | 1   0   0   0   1   0   1   1   | 1   0   0   0   1   0   1   0 |
     +--------------------------------------------------+
     ^ 0x8B                                         0x8A ^
MSB LSB
图2：Big-Endian的bit序列编码方式

　　注1：通常在TCP/IP协议栈所说的网络序(Network Order)就是遵循Big-Endian
规则。在TCP/IP网络通信中，通信双方把消息按照如图2的方式进行编码，然后按
从MSB(Bit0)到LSB的顺序在网络上传送。
　　2、little-endian
　　　little-endian：计算机体系结构中一种描述多字节存储顺序的术语，在这种机
制中最不重要字节（LSB）存放在最低端的地址上。采用这种机制的处理器有PDP-11、
VAX、Intel系列微处理器和一些网络通信设备。该术语除了描述多字节存储顺序外
还常常用来描述一个字节中各个比特的排放次序。

+------+
| 0x12 |<-- 0x00000021
+------+
| 0x34 |<-- 0x00000020
+------+
　　图3：双字节数0x1234以little-endian的方式存在起始地址0x00000020中

　　在Little-Endian中，对于bit序列中的序号编排和Big-Endian刚好相反，其方
式如下（以双字节数0x8B8A为例）：

bit    15 14 13 12 11 10 9   8     7   6   5   4   3   2   1   0
     +--------------------------------------------------+
val | 1   0   0   0   1   0   1   1   | 1   0   0   0   1   0   1   0 |
     +--------------------------------------------------+
     ^ 0x8B                                         0x8A ^
MSB LSB
图4：Little-Endian的bit序列编码方式

　　注2：通常我们说的主机序（Host Order）就是遵循Little-Endian规则。所以
当两台主机之间要通过TCP/IP协议进行通信的时候就需要调用相应的函数进行主机
序（Little-Endian）和网络序（Big-Endian）的转换。
注3：正因为这两种机制对于同一bit序列的序号编排方式恰恰相反，所以《现
代英汉词典》中对MSB的翻译为“最高有效位”欠妥，故本文定义为“最重要的bit
/byte”。

　　3、middle-endian：

　　middle-endian：除了big-endian和little-endian之外的多字节存储顺序就是
middle-endian，比如以4个字节为例：象以3-4-1-2或者2-1-4-3这样的顺序存储的
就是middle-endian。这种存储顺序偶尔会在一些小型机体系中的十进制数的压缩格
式中出现。
四、收尾
　　要详细解释这两种编码顺序已经超出本文所涉及的内容，如果你有兴趣的话可
以参考上面提及的Danny Cohen的论文（"On Holy Wars and a Plea for Peace"），
该论文详细的描述了这两种编码顺序的历史、所基于的数学理论和各自拥护者争论
的焦点等知识，绝对可以大饱你打破沙锅问到底的内心需要。

五、References & WebLinks

关于大字节序和小字节序

大字节序：把高有效位放在低地址段，例如在按字节寻址的存储器中往地址 0x0001 存放值 0x12345678，在存储器中为
     地址          数值
     0x0004        0x78
     0x0003        0x56
     0x0002        0x34
     0x0001        0x12

小字节序：把低有效位放在低地址段，例如在按字节寻址的存储器中往地址 0x0001 存放值 0x12345678，在存储器中为
     地址          数值
     0x0004        0x12
     0x0003        0x34
     0x0002        0x56
     0x0001        0x78

在传输半字，字，双字的时候，读取地址时总是由低往高，通常 x86 等指令集用的是小字节序，RISC 等其他指令集用大字节序。在同一指令集中进行数据传输不需要进行字节序转换，在不同的指令集之间进行传输时需要进行字节序转换，如进行网络传输。网络传输用的都是大字节序。

对 C 编程的影响

参考下例 (编译运行于 32 位 x86 机器，小字节序)：

#include <stdio.h>

typedef struct
{
     union
     {
         unsigned char str[3];
         unsigned long a;
         unsigned short b;
     };
} test;

int main(int argc, char * argv[])
{
     test m;
     m.a = 0x002233ff;
     printf("%p %p %p/n", m.str, &m.a, &m.b);
     printf("0x%x/n", m.b);
     printf("%u %u/n", m.str[0], m.str[3]);

return 0;
}

输出结果为：(其中第一行的值可能会变化，但不管怎么变，三个值肯定是相同的)
0xbfd4d1d0 0xbfd4d1d0 0xbfd4d1d0
0x33ff
255 0