hive
ousongsong
这个作者很懒,什么都没留下…
展开
-
数仓实践上
需求 1、在会员分析中计算最近七天连续三天活跃会员数。 2、项目的数据采集过程中,有哪些地方能够优化,如何实现? 解题思路 求最近七天连续三天活跃的会员数 从dws.dws_member_start_day 这张每日会员登录表中已经知道了,每日登录的会员 从求出的时间往前推7天确认数据范围 使用排序函数 row_number,按照device_id分组,dt排序,用dt减去row——number得到分组标识字段gid 再根据gid和device_id进行分组,用连续三天这个条件进行过滤 hue测试代码使原创 2021-02-02 20:45:51 · 193 阅读 · 0 评论 -
Azkaban任务调度
需求 现有用户点击行为数据文件,每天产生会上传到hdfs目录,按天区分目录,现在我们需要每天凌晨两点定时导入Hive 表指定分区中,并统计出今日活跃用户数插入指标表中。 日志文件 clicklog userId click_time index uid1 2020-06-21 12:10:10 a.html uid2 2020-06-21 12:15:10 b.html uid1 2020-06-21 13:10:10 c.html uid1 2020-06-21 15:10:10 d.html uid2原创 2020-11-12 02:11:47 · 1477 阅读 · 0 评论 -
hive sql常用题目测试
作业题 1、找出全部夺得3连贯的队伍 team,year 活塞,1990 公牛,1991 公牛,1992 公牛,1993 火箭,1994 火箭,1995 公牛,1996 公牛,1997 公牛,1998 马刺,1999 湖人,2000 湖人,2001 湖人,2002 马刺,2003 活塞,2004 马刺,2005 热火,2006 马刺,2007 凯尔特人,2008 湖人,2009 湖人,2010 create table t1( team string, year int )row format delim原创 2020-10-18 16:24:23 · 925 阅读 · 0 评论