DW
文章平均质量分 55
大数据海中游泳的鱼
大数据海中游泳的鱼,对Spark、Hadoop、HDFS、Kafka、Hive、HQL、SQL都有兴趣。
展开
-
DolphinScheduler操作步骤
2)上传工作流所需脚本 : 将工作流所需的所有脚本上传到资源中心scripts路径下。(1)切换到 admin 用户,在环境管理下创建环境。(1)在gmall项目下创建工作流。(2)在环境配置中添加如下内容。(2)各任务节点配置如下。原创 2023-04-19 21:31:33 · 374 阅读 · 0 评论 -
DW每层设计要点
(3)DWS层表名的命名规范为dws_数据域_统计粒度_业务过程_统计周期(1d/nd/td)(3)DWD层表名的命名规范为dwd_数据域_表名_单分区增量全量标识(inc/full)(3)ODS层表名的命名规范为:ods_表名_单分区增量全量标识(inc/full)。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(1)DWD层的设计依据是维度建模理论,该层存储维度模型的事实表。原创 2023-04-19 21:13:04 · 451 阅读 · 0 评论 -
大数据集群规划、规模、版本、端口号
3.客户端尽量放在1到2台服务器上,一是风险隔离,导致集群内部受到不必要的干扰。2)每条日志1K左右,每天1亿条: 100000000/1024/1024 = 约100G。假设每台服务器8T磁盘,128G内存。3)一年内不扩容服务器来算: 100G * 360天 = 约36T。5)预留20%~30%Buf = 108T/0.7 = 154T。2.kafka、ZK、Flume传输数据比较紧密的放在一起。1)每台日活跃用户100万,每人一天平均100条: 100万。6)算到这: 约 8T*20 台服务器。原创 2023-04-11 22:46:33 · 491 阅读 · 0 评论