记录一次Spark SQL的map类型报错

最新推荐文章于 2024-05-24 17:56:33 发布

牧码文

最新推荐文章于 2024-05-24 17:56:33 发布

阅读量1k

点赞数

分类专栏：数据存储数据仓库 hive 文章标签： hive sql 网络协议

本文链接：https://blog.csdn.net/weixin_46429290/article/details/123747140

版权

hive 同时被 3 个专栏收录

61 篇文章 4 订阅

订阅专栏

数据仓库

56 篇文章 11 订阅

订阅专栏

数据存储

55 篇文章 1 订阅

订阅专栏

记录一次Spark SQL的map类型报错

今天在做一个需求的时候，提交代码测试运行总是在一个任务节点挂掉，报错信息如下：

SparkSQLCLIDriver: Error in query: Cannot have map type columns in DataFrame which calls set operations(intersect, except, etc.), but the type of column label is map<string,string>;

review了一下代码，发现有些查询中会没有结果的出现，就怀疑是不是这些空值报的错误，因为报错信息有个提到了map，是否map结构构建空值的时候会报错，所以去测试了一下，发现并不会报错啊

于是没有办法，把后半部分代码注释，前半部分执行，发现还是报错，报的还是一样的错，所以这里可以基本排除空值的错误

那么是前半部分的报错，就看一看前半部分哪里有用到map结构，发现了有一个地方的map这样写的

select distinct project_id
  ,map("downstream_baseline_id_list", baseline_id) label
  ,baseline_id
  ,rel_numbers
from baseline_map;

然后仔细分析一下代码的报错信息，大概意思是，在使用intersect、except等这些operations的时候不能有map结构，但是label是一个map结构
在这里插入图片描述

到这里就明了了，其实问题很简单，是因为map结构不能用在去重的结构中，所以这里使用select distinct是错误的，把distinct去掉就可以了

但是问题就又会出来，distinct去重没了，那么结果就会变化啊，解决这种问题就可以先去重，再map

select project_id
  ,map("downstream_baseline_id_list", baseline_id) label
  ,baseline_id
  ,rel_numbers
from (
  select distinct project_id
    ,baseline_id
    ,rel_numbers
from baseline_map;
) t1;

这样既解决了问题，又解决了报错

牧码文

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
记录一次Spark SQL的map类型报错

记录一次Spark SQL的map类型报错今天在做一个需求的时候，提交代码测试运行总是在一个任务节点挂掉，报错信息如下：SparkSQLCLIDriver: Error in query: Cannot have map type columns in DataFrame which calls set operations(intersect, except, etc.), but the type of column label is map<string,string>;revie
复制链接

扫一扫