大端小端区别、Union和Struct的内存分配、对齐方式

最新推荐文章于 2022-04-22 15:59:15 发布

zephyr_be_brave

最新推荐文章于 2022-04-22 15:59:15 发布

阅读量2.9k

点赞数

分类专栏： C++ 文章标签： big-endian little-endian

C++ 专栏收录该内容

35 篇文章 0 订阅

订阅专栏

Big-endian和little-endian是描述排列存储在计算机内存里的字节序列的术语。

Big-endian是一种大值的一端（序列中更典型值）存在前面（在最小的存储地址）的顺序。Little-endian是一种小值的一端（序列中较不典型的值）存储在前的顺序。比如，在Big-endian的电脑中，需要两个字节把十六位数4F52当作4F52存在存储器中（如果4F存在存储地址1000中，比如说，52将存在1001中）。在little-endian系统里，将被存为524F（52存在存储地址1000中，比如说，4F将存在1001中）。

一个例子：
如果我们将0x1234abcd写入到以0x0000开始的内存中，则结果为
           big-endian   little-endian
0x0000      0x12       0xcd
0x0001     0x34       0xab
0x0002      0xab       0x34
0x0003      0xcd        0x12

嵌入式系统开发者应该对Little-endian和Big-endian模式非常了解。采用Little-endian模式的CPU对操作数的存放方式是从低字节到高字节，而Big-endian模式对操作数的存放方式是从高字节到低字节。也就是说Big-endian模式符合人的习惯，而Little-endian更加方便计算机操作。

例如，16bit宽的数0x1234在Little-endian模式CPU内存中的存放方式（假设从地址0x4000开始存放）为：
内存地址 0x4000 0x4001
存放内容 0x34 0x12

而在Big-endian模式CPU内存中的存放方式则为：
内存地址 0x4000 0x4001
存放内容 0x12 0x34

32bit宽的数0x12345678在Little-endian模式CPU内存中的存放方式（假设从地址0x4000开始存放）为：
内存地址 0x4000 0x4001 0x4002 0x4003
存放内容 0x78 0x56 0x34 0x12

而在Big-endian模式CPU内存中的存放方式则为：
内存地址 0x4000 0x4001 0x4002 0x4003
存放内容 0x12 0x34 0x56 0x78

若判断处理器是Big还是Little模式，有两种方法。

1、

int i=1;   
    char *p=(char *)&i;   
    if(*p==1)     
           printf("Little Endian");  
    else
           printf("Big Endian");

大小端存储问题，如果小端方式（i占至少两个字节的长度）则i所分配的内存最小地址那个字节中就存着1，其他字节是0.大端的话则1在i的最高地址字节处存放，char是一个字节，所以强制将char型量p指向i则p指向的一定是i的最低地址，那么就可以判断p中的值是不是1来确定是不是小端

2、

int isLittleEndian( )
{
    {
           union w
           {  
                  int a;
                  char b;
           } c;
           c.a = 1;
           return(c.b ==1);
    }
}

这个解法涉及到Union的内存分配模式,联合体union的存放顺序是所有成员都从低地址开始存放。

Union的大小为其内部所有变量的最大值，并且按照类型最大值的整数倍进行内存对齐。

例如：

typedef Union 
{
    char c[10];
    char cc1;
}u11;

首先按照char c[10]分配10个字节，然后按照char的1个字节对齐，最终sizeof(u11)=10;

typedef union 
{
    char c[10];
    int i;
}u22;

首先按照char c[10]分配10个字节，然后按照int的4个字节对齐，最终sizeof(u22)=12;

typedef union 
{
    char c[10];
    double d;
}u33;

首先按照char c[10]分配10个字节，然后按照double的8个自己对齐，最终sizeof=16；

union U1  {
     char  c;
     int  i;
     double  d;
} ;

因此，举例中union分配的内存按照int分配4个字节，如果是小端模式则存放的方式为

地址A
------------------------------------
|A       |A+1   |A+2    |A+3 | int a;
|0x01 |0x00   |0x00   |0x00 |
-------------------------------------
|A      |char b;
|          |
---------

如果是大端如何存储c.a的呢？

地址A

------------------------------------------
|A          |A+1    |A+2      |A+3      |int a;
|0x00   |0x00   |0x00    |0x01    |
------------------------------------------
|A       |char b;
|            |
---------

因此我们就可以通过查看char b==1？来判断大小端了。

顺便说明一下struct的内存分配方式。

struct的内存大小为每个数据内存的加和，首先按照最大的数据类型进行单个分配，如果前一个数据占用不了所有的内存，而剩下的内存可以放下下一个数据，则第二个数据不另外分配内存，否则重新分配一个最大类型的内存单元。

struct{
    char c;
    double d;
};//16

struct{
    char c;
    char c1;
    double d;
};//16

struct{
    char c;
    double d;
    char c2;
};24

Union如何使用？
对联合变量的赋值，使用都只能是对变量的成员进行。联合变量的成员表示为：
联合变量名.成员名
例如，a被说明为test类型的变量之后，可使用a.class、a.office
不允许只用联合变量名作赋值或其它操作，也不允许对联合变量作初始化赋值，赋值只能在程序中进行。
还要再强调说明的是，一个联合变量，每次只能赋予一个成员值。换句话说，一个联合变量的值就是联合变员的某一个成员值。

6、匿名联合
匿名联合仅仅通知编译器它的成员变量共同享一个地址,而变量本身是直接引用的,不使用通常的点号运算符语法.

例如：
＃i nclude <iostream>
void main()
{
union{
int test;
char c;
};
test=5;
c=′a′;
std::cout<<i<<" "<<c;
}

正如所见到的,联合成分象声明的普通局部变量那样被引用,事实上对于程序而言,这也正是使用这些变量的方式.另外,尽管被定义在一个联合声明中,他们与同一个程序快那的任何其他局部变量具有相同的作用域级别.这意味这匿名联合内的成员的名称不能与同一个作用域内的其他一直标志符冲突.
对匿名联合还存在如下限制:
因为匿名联合不使用点运算符，所以包含在匿名联合内的元素必须是数据,不允许有成员函数，也不能包含私有或受保护的成员。还有,全局匿名联合必须是静态(static)的，否则就必须放在匿名名字空间中。

7、几点需要讨论的地方：
1、联合里面那些东西不能存放？
我们知道，联合里面的东西共享内存，所以静态、引用都不能用，因为他们不可能共享内存。

2、类可以放入联合吗？

我们先看一个例子：
class Test
{
public:
Test():data(0) { }
private:
int data;
};
typedef union _test
{
Test test;
}UI;
编译通不过，为什么呢？
因为联合里不允许存放带有构造函数、析够函数、复制拷贝操作符等的类，因为他们共享内存，编译器无法保证这些对象不被破坏，也无法保证离开时调用析够函数。

3、又是匿名惹的祸？？

我们先看下一段代码：
class test
{
public:
test(const char* p);
test(int in);
const operator char*() const {return
data.ch;}
operator long() const {return data.l;}
private:
enum type {Int, String };
union
{
const char* ch;
int i;
}datatype;
type stype;
test(test&);
test& operator=(const test&);
};
test::test(const char *p):stype
(String),datatype.ch(p) { }
test::test(int in):stype(Int),datatype.l(i) {
}
看出什么问题了吗？呵呵，编译通不过。为什么呢？难道datatype.ch(p)和datatype.l(i)有问题吗？
哈哈，问题在哪呢？让我们来看看构造test对象时发生了什么，当创建test对象时，自然要调用其相应的构造函数，在构造函数中当然要调用其成员的构造函数，所以其要去调用datatype成员的构造函数，但是他没有构造函数可调用，所以出
错。

注意了，这里可并不是匿名联合！因为它后面紧跟了个data!

4、如何有效的防止访问出错？

使用联合可以节省内存空间，但是也有一定的风险：通过一个不适当的数据成员获取当前对象的值！例如上面的ch、i交错访问。
为了防止这样的错误，我们必须定义一个额外的对象，来跟踪当前被存储在联合中的值得类型，我们称这个额外的对象为：union的判别式。
一个比较好的经验是，在处理作为类成员的union对象时，为所有union数据类型提供一组访问函数。

对齐方式

编译器中提供了#pragma pack(n)来设定变量以n字节对齐方式。n字节对齐就是说变量存放的起始地址的偏移量有两种情况：第一、如果n大于等于该变量所占用的字节数，那么偏移量必须满足默认的对齐方式，第二、如果n小于该变量的类型所占用的字节数，那么偏移量为n的倍数，不用满足默认的对齐方式。