自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 python读parquet文件并转csv格式

# 把parque文件转csv。

2023-06-06 10:59:10 798

原创 SQL:统计每5min在线人数思路

只需要关联开始时间的hour就可以,因为开始和结束时间都是同一个hour下,这样关联每一条记录会膨胀12条数据。判断游戏时长大于1h的为异常数据,已经过滤了游戏耗时大于1h的数据,所以目前数据的情况是。可以看到 开始时间和结束时间判断对应的时间点是否在线的规则是不一样的。得到相对应的时间点,再判断,这个点是否在开始时间和结束时间的区间内。情况1:游戏开始时间和结束时间是在同一天,同一个小时内,则。1,游戏开始时间和结束时间是在同一天,同一个小时内;2,游戏开始时间和结束时间是同一天,不同小时内;

2022-09-14 20:53:35 1405

原创 如何通过SparkUI 查看SparkSql作业

执行计划中的每个蓝色方块都有非常多的信息可以查看,如肉眼直接可以看到的Scan orc table_name ,number of output rows: 说明扫描了哪个表,这个表有多少行,我们把鼠标放在对应的信息上也会显示详细的信息,扫描的表的hdfs路径,分区,表存在的字段,等等,如下图。注:一般任务中有缓存,且是还在执行的过程中,这个页面才有对应的信息,任务执行时缓存结束了,这个页面的信息就会释放,就看不到什么内容了。job中stage的划分就是根据shuffle依赖进行的。

2022-09-13 14:22:49 4615 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除