hive
hadoop程序猿
爸爸的爸爸是爷爷
展开
-
spark一次倾斜引发的思考
场景:1大2小表关联其中a表4亿+行,300G左右,b表几w行,17M左右,c表几十w行,90M左右其中b为维表,c为a的子集,a、c以a主键关联,a、b为维度关联原创 2020-08-10 15:53:41 · 390 阅读 · 0 评论 -
hive存储格式textfile到orc
hive默认存储格式为textfile,orc是一种列式存储格式,读,写,处理数据上比textfile更有优势,更节省磁盘空间由于orc的表不能直接load导入,所以我们仍需要textfile的表将textfile表的查询结果导入到orc表create table api_orc stored as ORC TBLPROPERTIES("orc.compress"="ZLIB")...原创 2019-03-14 11:42:22 · 7309 阅读 · 0 评论 -
CDH 5.14x 配置hive on spark
cdh版本为5.14网上搜hive on spark大都5.9之前或更早,看着挺麻烦的话不多说首先在CDH界面,hive配置搜索execution默认时MR,选spark就ok了然后提示过期配置重启服务,重启的话重启失败,报如下错误还需要配置服务依赖,找到下面这个默认时none,选择spark,重启就ok了。进hive cli,随便执行一个sql语句...原创 2019-03-04 15:00:40 · 2326 阅读 · 4 评论 -
hive 窗口/分析 函数汇总
<一>row_number(),rank,dense_rank()一般用来分组取topN等依次为部门 dep,员工 emp,月薪 sala 101 7a 103 11a 102 9a 109 14b 105 12b 104 12b 106 6b 107 13b ...原创 2019-02-25 13:17:33 · 614 阅读 · 0 评论 -
Hive SQL窗口函数实现页面统计(以腾云天下页面访问为例)
埋点数据字段为:userid,at,sid,pid分别表示用户id,访问时间,sessionId(区分一次启动),页面id表名为beacon所有数据均为模拟数据2018-07-04 11:46:37 2856 efda26adec1c3eb8 h_012018-07-04 11:46:47 2856 efda26adec1c3eb8 h_032018-07-04 11:46:...原创 2018-07-18 16:48:03 · 1977 阅读 · 0 评论 -
hive学习之经典sql50题 hive版(一)
尽管hql与sql差不多,但还是想把学生教师成绩sql版的改个hive版的,一方面提升自己hql能力,一方面希望帮到广大准备入手hive的同学建表:create table student(sid string,sname string,sage int,ssex string) row format delimited fields terminated by '\t';create table...原创 2018-06-20 17:23:02 · 7512 阅读 · 1 评论 -
hive学习之经典sql50题 hive版(四)
21.查询男生、女生人数 select f.c,m.cfrom(select count(sid) c from student where ssex='男') fjoin(select count(sid) c from student where ssex='女') m;22.查询名字中含有"风"字的学生信息select * from student where sname like '%风%...原创 2018-06-22 17:06:53 · 3093 阅读 · 2 评论 -
hive学习之经典sql50题 hive版(三)
11.查询至少有一门课与学号为“01”的同学所学相同的同学的学号和姓名select stu.sidfrom(select other.s sid,other.c cidfrom(select cid from sc where sid=01) s01join(select sid s,cid c from sc where sid!=01) otheron other.c=s01.cid) stu...原创 2018-06-22 17:00:09 · 3078 阅读 · 0 评论 -
hive学习之经典sql50题 hive版(二)
1.查询“某1”课程比“某2”课程成绩高的所有学生的学号select s.idfrom(select s1.sid id,s1.score c1,s2.score c2from (select sid,score from sc where cid=1) s1join (select sid,score from sc where cid=2) s2 on s1.sid=s2...原创 2018-06-21 13:47:34 · 3907 阅读 · 2 评论