- 博客(8)
- 收藏
- 关注
原创 Hive
【大数据】Hive函数➕分区分桶表➕hive文件格式和压缩_hive 一个分区两种压缩文件-CSDN博客文章浏览阅读239次。hive打开本地模式sql语句:set hive.exec.mode.local.auto=true;max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数👉参考官方文档UDF一进一出,单行函数UDAF用户自定义聚合函数,多进一出。UDTF用户自定义表生成函数,一进多出。
2024-04-11 09:42:47
280
1
原创 flink sgg
代码 - streamGraph - (优化) - jobGraph - (jobManager) - excutionGraph - (taskManager) - 物理执行图。逻辑流图(StreamGraph)→ 作业图(JobGraph)→ 执行图(ExecutionGraph)→ 物理图(Physical Graph)执行图(ExecutionGraph):按照并行度对并行子任务进行了拆分-stage。4. 对比sparkStreaming。少、不灵活(窗口必须是批次的整数倍)
2024-03-28 17:38:19
331
原创 spark
master (ResourceManager) - 资源的调度和分配。worker (NodeManager) - 一台服务器上。1. 内部:parallelize 、makeRDD。存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;分片的弹性:可根据需要重新分片。计算的弹性:计算出错重试机制;计算引擎,master-slaver。executor - 一个JVM进程。2.2.2 并行度与分区。2.2.1 创建RDD。
2024-03-19 17:48:26
312
原创 数仓5.0
insert + update (原来又sku_num 并且数量增加)从订单明细里筛选出;更新了支付状态为1602 的数据。在某天payment_status 发生变动的数据。行为-事实:浏览、启动、动作、曝光、错误。eg: DWD - 交易域 支付成功。eg:DWD - 交易域 加购。环境维度退化到dwd。
2024-03-05 23:25:16
166
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人