数仓分层
将原数据放入ods层。
清洗后的数据放在dwd层。
逻辑数据放在dws层。
应用数据放在ads层。
表命名规则
数仓层级_数据源_一级处理_二级处理
例如:
原始用户登录数据:ods_login_user
原始未改的微博数据:ods_weibo_original
清洗之后的微博数据:dwd_weibo_clean
微博用户总数量数据:dws_weibo_user_num
数据说明
用户的历史微博数据,数据有1206个小文件,所有数据的格式均是json格式。
总共140多万条,800+M。
合并小文件
建立ods层
create table ods_weibo_original(
data string
);
load data local inpath '/root/data/weibo.json' into table ods_weibo_original;
字段描述如下:
beCommentWeiboId 是否评论 beForwardWeiboId 是否是转发微博 catchTime 抓取时间 |