![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
小赵要加油
这个作者很懒,什么都没留下…
展开
-
【hive】order by、sort by、distribute by、cluster by的区别
hive order by 、sort by、distinct by、cluster by的区别原创 2023-03-20 18:09:09 · 1012 阅读 · 0 评论 -
外部文件数据写入hive
【】原创 2022-11-08 14:16:22 · 402 阅读 · 0 评论 -
数据仓库_01
数据仓库概述数据输入数据来源主要分为三个方面:爬虫数据、用户行为数据(可以通过埋点,在日志服务器上进行,最终通过flume将数据同步到数据仓库)、业务数据(通过sqoop将MySQL中的数据同步到hive)数据分析数据仓库将数据备份在ODS当中,DWD完成数据的清洗,DWS/DWT大多数聚合join数据,ADS为报表层数据输出报表系统:条形图、折线图、饼图用户画像系统:用户打标签(为推荐系统做铺垫)分为三个标签:统计类、规则类、机器学习类标签推荐系统机器学习:包括推荐系统需求分析原创 2022-05-27 15:08:18 · 115 阅读 · 0 评论 -
数据仓库分层
数据分层的好处:清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能够更加方便的定位和理解减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题三层数据模型为了满足前面提到的数据分层带来的好处,我们将数据模型分为三层:数据运营层(ODS):存放接入的原始数据,是最接近数据源中数据的一层,数据源中的数据,经过.原创 2022-02-07 17:13:20 · 147 阅读 · 0 评论