记录一次Spark SQL的map类型报错

56 篇文章 11 订阅
55 篇文章 1 订阅

记录一次Spark SQL的map类型报错

今天在做一个需求的时候,提交代码测试运行总是在一个任务节点挂掉,报错信息如下:

SparkSQLCLIDriver: Error in query: Cannot have map type columns in DataFrame which calls set operations(intersect, except, etc.), but the type of column label is map<string,string>;

review了一下代码,发现有些查询中会没有结果的出现,就怀疑是不是这些空值报的错误,因为报错信息有个提到了map,是否map结构构建空值的时候会报错,所以去测试了一下,发现并不会报错啊

于是没有办法,把后半部分代码注释,前半部分执行,发现还是报错,报的还是一样的错,所以这里可以基本排除空值的错误

那么是前半部分的报错,就看一看前半部分哪里有用到map结构,发现了有一个地方的map这样写的

select distinct project_id
  ,map("downstream_baseline_id_list", baseline_id) label
  ,baseline_id
  ,rel_numbers
from baseline_map;

然后仔细分析一下代码的报错信息,大概意思是,在使用intersect、except等这些operations的时候不能有map结构,但是label是一个map结构
在这里插入图片描述

到这里就明了了,其实问题很简单,是因为map结构不能用在去重的结构中,所以这里使用select distinct是错误的,把distinct去掉就可以了

但是问题就又会出来,distinct去重没了,那么结果就会变化啊,解决这种问题就可以先去重,再map

select project_id
  ,map("downstream_baseline_id_list", baseline_id) label
  ,baseline_id
  ,rel_numbers
from (
  select distinct project_id
    ,baseline_id
    ,rel_numbers
from baseline_map;
) t1;

这样既解决了问题,又解决了报错

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

牧码文

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值