自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 flink 练习

111。

2024-06-11 17:03:14 100

原创 语兴

事实表设计过程:业务过程—事实表类型—粒度—维度—补充度量值—维度退化。

2024-04-16 17:00:31 71 1

原创 Hive

【大数据】Hive函数➕分区分桶表➕hive文件格式和压缩_hive 一个分区两种压缩文件-CSDN博客文章浏览阅读239次。hive打开本地模式sql语句:set hive.exec.mode.local.auto=true;max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数👉参考官方文档UDF一进一出,单行函数UDAF用户自定义聚合函数,多进一出。UDTF用户自定义表生成函数,一进多出。

2024-04-11 09:42:47 280 1

原创 flink sgg

代码 - streamGraph - (优化) - jobGraph - (jobManager) - excutionGraph - (taskManager) - 物理执行图。逻辑流图(StreamGraph)→ 作业图(JobGraph)→ 执行图(ExecutionGraph)→ 物理图(Physical Graph)执行图(ExecutionGraph):按照并行度对并行子任务进行了拆分-stage。4. 对比sparkStreaming。少、不灵活(窗口必须是批次的整数倍)

2024-03-28 17:38:19 331

原创 spark

master (ResourceManager) - 资源的调度和分配。worker (NodeManager) - 一台服务器上。1. 内部:parallelize 、makeRDD。存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;分片的弹性:可根据需要重新分片。计算的弹性:计算出错重试机制;计算引擎,master-slaver。executor - 一个JVM进程。2.2.2 并行度与分区。2.2.1 创建RDD。

2024-03-19 17:48:26 312

原创 数仓5.0

insert + update (原来又sku_num 并且数量增加)从订单明细里筛选出;更新了支付状态为1602 的数据。在某天payment_status 发生变动的数据。行为-事实:浏览、启动、动作、曝光、错误。eg: DWD - 交易域 支付成功。eg:DWD - 交易域 加购。环境维度退化到dwd。

2024-03-05 23:25:16 166

原创 hive sql 练习题

where date_diff>=3 筛选连续3天。count 出前后在1d 范围内的数据。

2024-02-23 14:40:12 273

原创 日期维度表

(2019-1-2,工作日,3),

2024-01-30 12:21:32 252 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除