protobuf 中对int32, int64,uint32,uint64, sint32,sint64,bool,enum的变量采用变长编码来存储。
变长编码用1个或更多个字节来表示整数,对小数值采用更少的字节。下面先举几个例子:
1: 00000001
300: 10101100 00000010
在变长编码中每个字节的最高位被当做最高有效位(msb),如果为1表明这个整数还没有完结。
我们来看一下如果由 10101100 00000010 得到300:
10101100 -> msb 为1,第七位为0101100,继续读入下一个字节
00000010 -。msb为1,此整数结束
0000010 ++ 0101100
-> 000000001 00101100
-> 256 + 32 + 8 + 4 = 300
让我们看一下 编码过程(leveldb util/coding.cc) 非常简单
char* EncodeVarint64(char* dst, uint64_t v) {
static const int B = 128; // 1000 0000
unsigned char* ptr = reinterpret_cast<unsigned char*>(dst);
while (v >= B) {
*(ptr++) = (v & (B-1)) | B; //取低七位
v >>= 7;
}
*(ptr++) = static_cast<unsigned char>(v);
return reinterpret_cast<char*>(ptr);
}