自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 collcet_set函数实现排序

可以通过concat_ws(',',sort_array(collect_set(column)))

2024-03-06 10:31:42 396 1

原创 hive的json格式

第二个collect_set/array+map ,如果通过这个数据格式去合json的话,它的的数据类型就不能是string(因为数组不支持强转str类型 ),就是你合了以后 不能通过get_json_object,也不能插入string类型的字段中,只能放在array里,目前验证数据的话我通过size(json)>0 来验证条数。对我来说使用场景如果是提供给外部es,kafka这些的话我就用第二个,效率会快了那么一点。啊这我不太推荐,赶紧更慢点。

2024-02-21 14:34:55 474 1

原创 关于spark程序与pyspark的交互流程

9- 当Driver接收到各个executor的线程执行完成后, 接收返回值(如果有), 开始执行后续的非RDD的代码即可, 如果后续执行触发关闭sc对象, 直接关闭 同时通知Master 整个应用执行完成, 如果没有遇到, 一直占用。7- executor 接收到任务后, 开始运行, 但是由于代码是python, 所以executor无法直接运行, 此时调用python解析器, 运行python代码. executor中各个线程接收对应相关结果即可。executor1: node1 1核 1GB。

2024-02-21 14:15:26 329 1

原创 hive切割后获取最后一个字符串

hive切割后获取最后一个字符串

2023-03-02 20:58:50 1509

原创 org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0

org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {"

2023-02-21 17:53:45 600

原创 关于hive3多表leftjoin导致数据丢失问题及解决方案

关于hive3多表leftjoin导致数据丢失问题及解决方案

2022-11-29 11:20:33 2963 1

原创 关于解决缓慢渐变维的3种方式

关于解决缓慢渐变维的3种方式

2022-11-29 11:02:18 1302

原创 kafka的环境搭建(虚拟机)

kafka安装及环境搭建

2022-07-13 10:37:21 1747

原创 linux基础命令

ls -查看当前目录下的文件内容ls-al -查看当前目录下的所有文件内容,包括隐藏文件 同等于llls-l -以列表的形式查看文件ls-a -查看隐藏文件cat ./ -查看指定路径下的文件内容vim -进入文件编辑模式,如果没有文件,自动创建rm -删除文件 不能删除文件夹rm-r -递归删除rm-rf -删除文件不提示.包括文件夹mv /源路径/文件名 /新路径/文件名(可改可不改) -剪切 移动文件mv -r /源路径/文件名 /新路径/文件名(可改可不改)

2022-05-23 20:18:38 120 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除