准备面试前对离线数仓项目的Quick Review【DAY02】

这篇博客主要涵盖了日志的格式和组成,通过数据生成脚本阐述了如何封装并执行JavaBean,同时讨论了数仓分层的概念、优点及命名规范。此外,还介绍了如何利用脚本在Linux服务器上自动执行,并讲解了从ods到dwd再到dws层的数据处理流程,涉及凌晨导入技术和脚本任务调度工具的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

日志的格式和组成,数据生成脚本,数仓分层以及用户行为数仓的搭建

日志的格式和组成请添加图片描述
数据生成脚本
通过javabean一层一层封装,最后设置打印频率和数量。再将其同依赖一起打包放到Linux服务器中自动执行。
远程连接服务器:Xshell/secureCRT
数仓分层概念
请添加图片描述

数仓分层的优点数仓分层的优点
数仓分层的命名规范
请添加图片描述请添加图片描述

根据日志格式使用不同方法提取字段
请添加图片描述
之后就是将提取出的字段(从ods层)导入到dwd层再将dwd层的数据处理(去重等)导入到dws层。
这个时候就需要使用到脚本自动凌晨导入技术和脚本任务调度工具了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值