目录
Unicode中的UTF-8, UTF-16, UTF-16LE, UTF-16BE
fp16
是指采用2字节(16位)进行编码存储的一种数据类型;
FP16包括:
1个符号位,5个指数位,10个尾数位(共16位)。
fp32
是指采用4字节(32位)进行编码存储的一种数据类型;
在FP32中,每个数字都表示为:
1位表示符号(+或-),后跟8位的指数,在后面是23位的尾数(总共32位)。
BF16
BF16,有时也被称为BFloat16或Brain Float16,是一种针对人工智能/深度学习应用程序进行优化的新数字格式。它在谷歌Brain上获得了广泛的应用,包括谷歌、英特尔、Arm和许多其他公司的人工智能加速器。
BF16背后的想法是通过降低数字的精度来减少计算能力和将张量相乘所需的能源消耗。张量是一个三维的数字矩阵;张量的乘法是计算人工智能所需的关键数学运算。
现在大多数人工智能训练都使用FP32, 32位浮点数。虽然这意味着计算非常准确,但它需要强大的硬件和大量的电力。推理通常使用INT8, 8位整数(整数)。虽然使用诸如INT8这样的较低精度的数字系统可以在相同的硬件上提供更高的吞吐量,从而节省电力,但是计算(预测)的结果却不那么准确。
BF16的目的是优化精度和预测精度之间的权衡,以增加吞吐量。
BF16数字表示为:
1个符号位+ 8个指数位+7个尾数位(总共16位)。
内存对齐
typedef struct {
int a;
double b;
short c;
}A;
typedef struct {
int a;
short b;
double c;
}B;
分别对他们求大小,sizeof(A),sizeof(B)我们所得到的结果是不同的,
sizeof(A)=24而sizeof(B)=16为什么会产生不一样的结果呢?
这是非常简单的一个例子,体现了结构体的内存对齐规则。
在结构体中,从结构体的首地址开始,假设地址从0开始。
对结构体A来说,a占4个字节,占从0~3的字节,b是double类型占8个字节,占从8~15的字节,c占两个字节,从16~17的字节。
对结构体B来说,a占4个字节,从0~3,b占两个字节从4~6;c占8个字节从8~15。
这就是内存对齐,对齐规则是按照成员的声明顺序,依次安排内存,其偏移量为成员大小的整数倍,0看做任何成员的整数倍,最后结构体的大小为最大成员的整数倍(所以这里的A的大小是24,而不是18)。
为什么要内存对齐? 1.平台原因(移植原因):不是所有的硬件平台都能访问任意地址上的任意数据的;某些硬件平台只能在某些地址处取某些特定类型的数据,否则抛出硬件异常。 2.性能原因:数据结构(尤其是栈)应该尽可能地在自然边界上对齐。原因在于,为了访问未对齐的内存,处理器需要作两次内存访问;而对齐的内存访问仅需要一次访问。
字节序之Little-Endian&Big-Endian
对于字节序列的存储格式,目前有两大阵营,那就是Motorola的PowerPC系列CPU和Intel的x86系列CPU。PowerPC系列采用big endian方式存储数据,而x86系列则采用little endian方式存储数据。那么究竟什么是big endian,什么又是little endian呢?
1)Little-endian:将低序字节存储在起始地址(低位编址)
2)Big-endian:将高序字节存储在起始地址(高位编址)
为什么要注意字节序的问题呢?你可能这么问。当然,如果你写的程序只在单机环境下面运行,并且不和别人的程序打交道,那么你完全可以忽略字节序的存在。
但是,如果你的程序要跟别人的程序产生交互呢?在这里我想说说两种语言。C/C++语言编写的程序里数据存储顺序是跟编译平台所在的CPU相关的,而JAVA编写的程序则唯一采用big endian方式来存储数据。
试想,如果你用C/C++语言在x86平台下编写的程序跟别人的JAVA程序互通时会产生什么结果?就拿上面的0x12345678来说,你的程序传递给别人的一个数据,将指向0x12345678的指针传给了JAVA程序,由于JAVA采取big endian方式存储数据,很自然的它会将你的数据翻译为0x78563412。什么?竟然变成另外一个数字了?是的,就是这种后果。因此,在你的C程序传给JAVA程序之前有必要进行字节序的转换工作。
无独有偶,所有网络协议也都是采用big endian的方式来传输数据的。所以有时我们也会把big endian方式称之为网络字节序。当两台采用不同字节序的主机通信时,在发送数据之前都必须经过字节序的转换成为网络字节序后再进行传输。
目前应该little endian是主流,因为在数据类型转换的时候(尤其是指针转换)不用考虑地址问题。
Unicode中的UTF-8, UTF-16, UTF-16LE, UTF-16BE
- UTF-8 Eight-bit UCS Transformation Format
- UTF-16BE Sixteen-bit UCS Transformation Format, big-endian byte order. 其后缀是 BE 即 big-endian,大端的意思。大端就是将高位的字节放在低地址表示。
- UTF-16LE Sixteen-bit UCS Transformation Format, little-endian byte order. 其后缀是 LE 即 little-endian,小端的意思。小端就是将高位的字节放在高地址表示。
- UTF-16 Sixteen-bit UCS Transformation Format, byte order identified by an optional byte-order mark. 没有指定后缀,即不知道其是大小端,所以其开始的两个字节表示该字节数组是大端还是小端。即FE FF表示大端,FF FE表示小端。
单精度和双精度
单精度是1位符号,8位指数,23位小数。
双精度是1位符号,11位指数,52位小数。