protobuffer中string和bytes类型

博客搬家,原地址:https://langzi989.github.io/2017/06/07/protoBuffer中string与byte类型区别/

从上一节protobuffer的介绍中我们知道字符串类型在protobuffer中有string和bytes两种类型,那这两种类型有什么区别呢,什么时候用string,什么时候用bytes。在C++中两种类型分别对应的是什么类型.下面将揭开迷雾

string与bytes区别

按照经验我们知道bytes一般适用于存储二进制数据的,但在C++中,string既可以存储ASCII文本字符串,也能存储任意多个\0的二进制序列,那两者的区别在哪里呢?

  • string类型(protobuffer中的string,与C++区别开)不能存储非法的UTF-8字符,如果遇到该字符,序列化的时候将会出错。

[libprotobuf ERROR google/protobuf/wire_format.cc:1091] String field ‘str’ contains invalid UTF-8 data when serializing a protocol buffer. Use the ‘bytes’ type if you intend to send raw bytes.

###出现上述错误的原因
这里从ProtoBuf的源码进行分析。protoBuf在序列化的过程中,都会调用SerializeFieldWithCachedSizes这个函数。我们看一下序列化string和bytes在序列化过程中的区别。

对于string类型:

case FieldDescriptor::TYPE_STRING: {
  string scratch;
  const string& value = field->is_repeated() ?
    message_reflection->GetRepeatedStringReference(
      message, field, j, &scratch) :
    message_reflection->GetStringReference(message, field, &scratch);
  VerifyUTF8StringNamedField(value.data(), value.length(), SERIALIZE,
                             field->name().c_str());
  WireFormatLite::WriteString(field->number(), value, output);
  break;
}

对于bytes类型:

case FieldDescriptor::TYPE_BYTES: {
        string scratch;
        const string& value = field->is_repeated() ?
          message_reflection->GetRepeatedStringReference(
            message, field, j, &scratch) :
          message_reflection->GetStringReference(message, field, &scratch);
        WireFormatLite::WriteBytes(field->number(), value, output);
        break;
}

从上面可以看到,序列化string和bytes的区别主要在于:string类型序列化调用了VerifyUTF8StringNamedField函数检验string中是否有非法的UTF-8字符。其中VerifyUTF8StringNamedField实现如下:

void WireFormat::VerifyUTF8StringFallback(const char* data,
                                          int size,
                                          Operation op,
                                          const char* field_name) {
  if (!IsStructurallyValidUTF8(data, size)) {
    const char* operation_str = NULL;
    switch (op) {
      case PARSE:
        operation_str = "parsing";
        break;
      case SERIALIZE:
        operation_str = "serializing";
        break;
      // no default case: have the compiler warn if a case is not covered.
    }
    string quoted_field_name = "";
    if (field_name != NULL) {
      quoted_field_name = StringPrintf(" '%s'", field_name);
    }
    // no space below to avoid double space when the field name is missing.
    GOOGLE_LOG(ERROR) << "String field" << quoted_field_name << " contains invalid "
               << "UTF-8 data when " << operation_str << " a protocol "
               << "buffer. Use the 'bytes' type if you intend to send raw "
               << "bytes. ";
  }
}

string和bytes类型在C++和Java中的区别

protobuf类型在C++和java中的类型对应如下:

  • 在C++中,string和bytes的实现都是std::string类型。
  • 在Java中string和bytes类型的实现分别是String和ByteString。

为什么bytes类型可以描述string类型,还需要string呢?

根据论坛上说的,string类型在Java中有较多的API可供使用,而bytes较少,所以能定义为string的尽量定义为string,如果字段值确定或者可能含有非法的utf-8编码,则使用bytes类型。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 类型有什么区别? 在Hivestring类型和varchar类型都是用来存储字符串的数据类型。它们的区别在于,string类型是不定长的,而varchar类型是定长的。 具体来说,string类型可以存储任意长度的字符串,而varchar类型需要在定义时指定长度。例如,定义一个长度为10的varchar类型的列,那么这个列存储的字符串长度不能超过10个字符。 另外,由于varchar类型是定长的,所以在存储时会比string类型更节省空间。但是,由于varchar类型需要指定长度,所以在使用时需要注意长度的限制。 ### 回答2: Hive是一个基于Hadoop的数据仓库工具,可用于大规模数据处理。在Hive,有两种主要的字符串类型string和varchar。 1. string类型 string类型在Hive表示变长字符序列,它具有以下特点: (1)对于固定长度的字符串来说,使用string类型可以浪费空间; (2)内部表示方式为Java的String对象; (3)在查询使用的时候会转换为Java的String对象; (4)string类型的列可以用于分区和排序操作。 2. varchar类型 varchar类型也表示变长字符序列,它具有以下特点: (1)更紧凑,可以节省存储空间; (2)内部表示方式为Java的HiveVarchar对象; (3)在查询使用的时候会转换为Java的String对象; (4)varchar类型的列可以用于分区和排序操作; (5)varchar类型的值的最大长度为65535。 总的来说,Hivestring类型和varchar类型都是用于存储字符串的数据类型。区别在于,string类型更适用于存储不定长的字符串,而varchar类型更适用于存储较短且变化不大的字符串,如电话、邮编等。因此,在选择使用哪种数据类型时,需要根据实际数据情况进行判断。 ### 回答3: Hivestring类型和varchar类型都是用来表示文本数据的数据类型。然而,在使用这两种类型时,我们需要注意它们的区别和使用场景。 首先,两个类型都可以用来存储文本数据,但是它们的长度限制不同。string类型可以存储任意长度的字符串,而varchar类型则需要指定长度限制。在Hive,varchar类型的长度必须小于或等于65535个字符。 其次,在使用这两种类型时,我们也需要注意它们的存储方式和性能差异。由于string类型可以存储任意长度的字符串,因此它们在Hive的存储方式是变长存储,即不同的数据行可以使用不同的存储空间。而varchar类型则是定长存储,即在每个数据行都需要占用相同长度的存储空间。因此,在存储大量字符串数据时,varchar类型可能会浪费存储空间,而在查询大量字符串数据时,string类型可能会影响性能。 最后,这两种类型在使用的区别也在于它们的数据处理方式和数据类型转换。在进行数据处理时,string类型可以使用一些字符串相关的函数,如concat、substring等。而varchar类型则需要使用针对该类型的函数,如substr、concat_ws等。在进行数据类型转换时,string类型可以转换为所有的数据类型,而varchar类型则只能转换为数字类型。 总之,在使用string类型和varchar类型时,我们需要根据实际场景选择合适的类型,并注意各自的性能特点、存储方式和数据处理方式。只有合理选择和使用这两种类型,才能更好地管理和处理文本数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值