java spark读取嵌套json取值异常问题

曾阿伦

于 2023-05-11 09:49:17 发布

阅读量210

点赞数

分类专栏： Spark 文章标签： spark java json

本文链接：https://blog.csdn.net/zlhblogs/article/details/130615144

版权

Spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章描述了一个在处理SparkDataFrame时遇到的问题，具体是尝试将`value`列中的ScalaMap转换为Java的String或HashMap时引发了ClassCastException。解决方案是使用`getJavaMap`方法来正确地将SparkDataFrame中的MapType字段转换为Java的Map对象。

摘要由CSDN通过智能技术生成

sparksession load的数据中value字段是一个Json，直接转getAs读出成String导致了报错，代码及异常信息如下

String val = value.getAs(“value”);

Caused by: java.lang.ClassCastException: scala.collection.immutable.HashMap$HashTrieMap cannot be cast to java.util.String
	at com.cqvip.jobstream.spark.analysys.JingXKScopeScore$1.call(JingXKScopeScore.java:64)
	at com.cqvip.jobstream.spark.analysys.JingXKScopeScore$1.call(JingXKScopeScore.java:61)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:255)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:247)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:858)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:858)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
	at org.apache.spark.scheduler.Task.run(Task.scala:123)
	at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:750)

改为map类型同样报错

HashMap<String,String> valMap = value.getAs(“value”);

Caused by: java.lang.ClassCastException: scala.collection.immutable.HashMap$HashTrieMap cannot be cast to java.util.HashMap
	at com.cqvip.jobstream.spark.analysys.JingXKScopeScore$1.call(JingXKScopeScore.java:64)
	at com.cqvip.jobstream.spark.analysys.JingXKScopeScore$1.call(JingXKScopeScore.java:61)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$13$$anon$1.hasNext(WholeStageCodegenExec.scala:636)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:255)
	at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:247)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:858)
	at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$24.apply(RDD.scala:858)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:346)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:310)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
	at org.apache.spark.scheduler.Task.run(Task.scala:123)
	at org.apache.spark.executor.Executor$TaskRunner$$anonfun$10.apply(Executor.scala:408)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1360)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:414)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:750)

Spark DataFrame中的value列是Scala集合类型，而不是Java集合类型。由于Scala和Java集合类型是不兼容的，因此这种转换导致了类型转换失败。

在Java中，可以使用getJavaMap方法来获取Spark DataFrame列中类型为MapType的字段，并将其转换为Java Map类型，返回一个java.util.Map对象。

Map<String, String> valMap = value.getJavaMap(value.fieldIndex("value"));

问题解决。

曾阿伦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java spark读取嵌套json取值异常问题

在Java中，可以使用getJavaMap方法来获取Spark DataFrame列中类型为MapType的字段，并将其转换为Java Map类型，返回一个java.util.Map对象。Spark DataFrame中的value列是Scala集合类型，而不是Java集合类型。由于Scala和Java集合类型是不兼容的，因此这种转换导致了类型转换失败。sparksession load的数据中value字段是一个Json，直接转getAs读出成String导致了报错，代码及异常信息如下。
复制链接

扫一扫

专栏目录