关于内存对齐
什么是内存对齐
内存对齐具体表现形式为:结构体中的成员的地址(偏移)必须是自己大小的倍数。比如longlong类型的成员变量的地址必须是8的倍数。
结构体自身也要对齐,存放的地址根据最大的那个成员(基础成员,如果有类成员,则会将类视为其包含的所有成员,而不是一个整体)的大小的倍数存放(这也是为了保证结构体里面的成员的都对齐了)。
这些一般是编译器帮我们做的,程序员写代码时是无感的。
struct Obj1{ //size: 8
int i;
char c;
};
struct Obj2{ //size: 8
int i;
char c1;
char c2;
};
struct Obj3{ // size: 16
long long i;
char c1;
char c2;
};
struct Obj4{ //size: 24
char c;
Obj3 o; //o必须放在8倍数的地址上,因为Obj3里有个longlong
};
C++11中有个alignof可以查看变量的对齐要求。
std::cout<<"obj1:" << alignof(Obj1)<<std::endl
<<"obj2:" << alignof(Obj2)<<std::endl
<<"obj3:" << alignof(Obj3)<<std::endl
<<"obj4:" << alignof(Obj4)<<std::endl;
//输出:
obj1:4
obj2:4
obj3:8
obj4:8
内存对齐的误解
一个很大的误解是认为CPU只能从对齐地址取数据。你可以去看其他所有博客在讲CPU访问非对齐地址时,都是执行了两次取内存地址,然后对数据裁剪拼接。这让我产生了这样的误解。
但是想一想,CPU取1字节的char是怎么样的呢? 假如有个char[10], 假设char[0]地址28,char[1]则是29,char[1]这样的代码很常见,那么cpu是直接从29这样的地址取数据的。按理说char的对齐地址就是1的倍数,所以都是对齐的。但是你能用char[1]说明是从非4字节的地址直接取数据的,那么int数据在地址29为什么不行,CPU从地址29取4字节数据不是一次执行吗?
我问了GPT,得到的答案是这样的:
首先是字节寻址:现代处理器(包括32位和64位处理器)支持按字节寻址,这意味着CPU可以从内存中的任何地址读取单个字节的数据。无论该地址是否是4字节或8字节的整数倍,处理器都可以直接访问。
而之所以int数据在地址28(对齐)比地址29更好则是因为cache。
举例:假设cache是32字节,其目前里面是0-31的数据,如果你的int是在地址28,则CPU可以直接从cache中拿,但是int在29就出现chche不命中,效率肯定低了
验证,现代CPU可以一次取到非对齐地址的数据
我写了个简单的C代码,让把一个int数据拷贝到一个非对齐的地址位置,然后从这个位置取一个int,看看CPU要从地址中取几次。
int main()
{
uint8_t buf[12]{0};
int res = 5555;
memcpy(buf + 3, &res, 4);
int* p = (int*)(buf + 3);
int aa = *p;
std::cout << "buf + 3 = "<< *p<<std::endl;
}
首先 buf的地址是 0x…F708 然后int的数据被拷贝到了 buf+3 = 0x…F70B, 这个地址不是4的倍数
汇编的核心就是我圈出来的那一句,p = buf + 3,是不对齐的,但是依然一条取地址就OK了,后面那两条是把数据放到栈里的。
实验证明,不对齐,不需要取两次。