fp16: 15 14-10 9-0
float: 31 30-23 22-0
double: 63 62-52 51-0
NAN:
SNAN:指数位全1,尾数最高位0,尾数非0
QNAN: 指数全1,尾数最高位1, 尾数非0
32bit:
SNAN: x111 1111 1xxx xxxx xxxx xxxx xxxx xxxx
QNAN: x111 1111 11xx xxxx xxxx xxxx xxxx xxxx
64bit:
SNAN: x111 1111 1111 xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
QNAN: x111 1111 1111 1xxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx xxxx
INF:
pos_inf:符号位0,指数全1,尾数0
neg_inf:符号位1,指数全1,尾数0
nan:
float32: ffc0 0000
float64: fff8 0000 0000 0000
indefinite value:
16bit int: 8000
32bit int: 8000 0000
64bit int: 8000 0000 0000 0000
float32 1:0x3f800000
float 标准化:
S:符号位,M:尾数,E:指数