spark运行报:java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:
报错前提:在使用 spark 读取 Hadoop 的 hdfs 上的 txt 文件,进行相关的操作之后,转为 orc 格式,期间报 java.lang.RuntimeException: Error while encoding: java.lang.ArrayIndexOutOfBoundsException:
(…class org.apache.spark.unsafe.types.UTF8String, StringType, fromString, validateexternaltype(…)
具体报错内容(照片有点糊):
最后发现问题是 txt 文件的字体编码格式有问题,它们字符大小不一样,所以在代码里面进行匹配时会报ArrayIndexOutOfBoundsException。我此处 txt 文件正确应该为:UNIX GB2312(Simplified)INS [图2