最近在使用 hive on spark的时候遇到了一个错误:
java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.IntWritable
at org.apache.hadoop.hive.serde2.objectinspector.primitive.WritableIntObjectInspector.get(WritableIntObjectInspector.java:36)
百思不得其解,最后在查阅相关资料(各种某度)的时候发现了问题,
有这么一个参数:spark.sql.hive.convertMetastoreParquet
,默认设置是true, 它代表使用spark-sql内置的parquet的reader和writer(即进行反序列化和序列化),它具有更好地性能,如果设置为false,则代表使用 Hive的序列化方式。
但是有时候当其设置为true时,会出现使用hive查询表有数据,而使用spark查询为空的情况.
但是,有些情况下在将spark.sql.hive.convertMetastoreParquet
设为false,就会发生上面出现的异常。
这是因为在其为false时候,是使用hive-metastore使用的元数据进行读取数据,而如果此表是使用spark sql DataSource创建的parquet表,其数据类型可能出现不一致的情况,例如通过metaStore读取到的是IntWritable类型,其创建了一个WritableIntObjectInspector用来解析数据,而实际上value是LongWritable类型,因此出现了类型转换异常。
还有一个与该参数相关的参数是:spark.sql.hive.convertMetastoreParquet.mergeSchema
, 如果也是true,那么将会尝试合并各个parquet 文件的schema,以产生一个兼容所有parquet文件的schema。