hive sql
文章平均质量分 56
帅气迷人的老害虫
一天玩flink
展开
-
数仓拉链表的实现过程
1.简介 数据仓库中经常会遇到维度表缓慢变化的情况,针对这种情况可采用拉链表进行处理。拉链表就是记录历史数据的每个状态,数据量大,且存在数据的新增和变化。 2.实现过程 本文主要实现用户拉链表 2.1初始化用户拉链表 在DWD层创建用户的初始化拉链表,即在原始用户维度表上添加start_date和end_date列 DROP TABLE IF EXISTS gmall_2021.dwd_dim_user_info_his; -- 创建初始化拉链表 CREATE EXTERNAL TABLE gmall_20原创 2021-02-26 11:38:03 · 4479 阅读 · 1 评论 -
Hive中常用开窗函数
1.简介 本文主要讲解hive中常用开窗函数的使用 2.代码示例 2.1 row_number() over()、dense_rank() over()和rank() over() 数据准备 江西,高安,100 江西,南昌,200 江西,丰城,100 江西,上高,80 江西,宜春,150 江西,九江,180 湖北,黄冈,130 湖北,武汉,210 湖北,宜昌,140 湖北,孝感,90 湖南,长沙,170 湖南,岳阳,120 湖南,怀化,100 创建表 create table t_rn( provinc原创 2021-01-28 11:11:57 · 1131 阅读 · 1 评论 -
Hive SQL练习成长之路
1.简介 本篇主要分享hive sql的一个练习题,主要是练习hive sql在具体场景中的使用,相信对于刚接触hive sql的小伙伴在练习完成之后一定会有帮助。 2.数据准备 在hive中首先准备4张表,分别为student、score、course和teacher,四张表的关联关系和字段信息如下: 对应hdfs上的数据文件 /user/hive/warehouse/hql_test.db/score/student.csv 01 赵雷 1990-01-01 男 02 钱电 1990-12-21 男原创 2021-01-22 10:05:10 · 184 阅读 · 0 评论