![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive基础
文章平均质量分 76
数仓白菜白
一个未来的数仓架构师
展开
-
离线数仓第一步:学会Mysql和HDFS数据的互导
Sqoop完成mysql和hdfs数据之间的导入导出原创 2022-01-24 17:44:49 · 3428 阅读 · 0 评论 -
室友不会Hive中的分桶表,我给室友讲
hive中分桶操作以及陷阱讲解原创 2022-01-22 17:17:09 · 955 阅读 · 3 评论 -
Hive的表连接之讲了一半累了不讲了
事情糟糟,感觉自己没有处理好连接模式:Hive中根据数据连接发生的地方将连接模式分为两种。第一种是Repartition连接,发生在Shuffle和Reduce阶段,我们一般上说的表连接指的是Repartition连接。另外一种连接是Map join.就是所谓的大表Join小标普通的表连接Map的任务读取A,B两个表的数据,按照连接条件发往相同的Reduce。并在Reduce中计算结果。什么是普通的...原创 2022-01-21 20:22:32 · 446 阅读 · 0 评论 -
HIve的聚合模式室友不知道,我学会了给他们讲
只要我以为,这不是误会,谁会是宝贝小谈:今天没有摆烂,今天大早上起来在学校用土豆做的服务器上面选课,说实话奥,分批次选课,顶多不到8000多人、就卡的不得了,咱Java学的不精,看到各个微信公众号推送的高并发变成广告,建议学校的领导去学学高并发。而且也不是同时在线八千人。估计顶多两三千人,最多四五千人把。我的评价是不如原神Hive中的聚合模式什么是聚合?聚合就是将多行的数据缩减成一行或者是少数几行的计算模式。其实在我们刚开始学习mr的时...原创 2022-01-21 13:11:02 · 946 阅读 · 0 评论 -
室友不知道Hive中的过滤多样性,我靠一本书给他讲的明明白白
hive中的各种过滤大甩卖,讲解到位原创 2022-01-20 21:48:20 · 3065 阅读 · 1 评论 -
Hive数据倾斜不学好,数据倾斜少不了
hive数据倾斜的类型以及处理办法原创 2022-01-20 11:18:51 · 309 阅读 · 0 评论 -
Hive中的Distribute by 搭配sort by
今天不学习,明天不学习,后天就习惯不学习了小谈:上次讲了sort by和order by的区别,order by 进行全局排序,此时的reduce只有1个。sort by分情况。情况一:一个reduce。相当于order by 会进行全局排序,因为全局就只有那一个reduce情况二:多个reduce。sort by 会在多个reduce里面。对每一个reduce进行内部的排序。就是每个re...原创 2022-01-19 12:30:24 · 1166 阅读 · 0 评论 -
Hive中你知道的Join小技巧
hive中的Join 和mysql中的Join基本上大差不差。但是还是有一些区别。原创 2022-01-18 20:10:49 · 614 阅读 · 0 评论 -
hive中explode配合lateral view
hive中使用explode 搭配lateral view进行炸裂原创 2022-01-16 13:57:30 · 947 阅读 · 0 评论 -
SQL编程中的规范
在SQL编程应该要注意什么很多格式需要我们去注意大小写,空格,种种因素都是我们需要注意的原创 2022-01-15 16:47:29 · 1276 阅读 · 1 评论 -
Exists的作用知多少
使用exists谓词来完成的操作,exists和In到底哪个更好原创 2022-01-14 15:17:50 · 809 阅读 · 2 评论 -
关联子查询实现窗口函数
用关联子查询来实现窗口函数原创 2022-01-13 18:54:43 · 231 阅读 · 0 评论 -
SQL每日一题1.13
sql每天一个小技巧原创 2022-01-13 09:15:38 · 249 阅读 · 0 评论 -
全外连接给你讲
认识全外连接,使用外连接求差集原创 2022-01-12 19:14:02 · 6409 阅读 · 0 评论 -
SQL每日一题
最近突然变得好轻松了,也要开始努力更新博文了小谈:现在博主的时间多了起来,因为驾考之旅差不多已经接近末尾了。就差一个科目四了,但是由于疫情,科目四暂时停了。在没有更新博客的这几天里面,博主每天都在练车考驾照,花费了十天多的时间,将科目二和科目三一把过。除了给驾校交了3200元的学费。还在考场练车花了有550元。其中,科目二模拟一次花了150,科目三模拟了两次,花了400.不过好在结果非常好,都过了,现在我只差科目四就结束我的驾考之旅了。现在我有大把的时间来学习和更新博客了,因此我会开一个.原创 2022-01-12 14:21:44 · 437 阅读 · 0 评论 -
count(字段),count(*),count(1)的区别
count计数的几种方法与特点原创 2022-01-07 20:41:38 · 1010 阅读 · 0 评论 -
使用外连接进行行转列
使用三种方法实现行转列外连接 标量子查询 嵌套case when原创 2022-01-06 20:16:16 · 682 阅读 · 4 评论 -
group by和partition by的前世姻缘
group by和 partition by 窗口函数原创 2022-01-05 20:42:45 · 666 阅读 · 1 评论 -
Hive存储格式对执行效率的影响
hive中存储格式的不同带来的不可描述的作用原创 2022-01-05 17:34:54 · 1156 阅读 · 0 评论 -
hive动态分区我知道
hive动态分区 下的单个字段和多个字段的情况原创 2022-01-03 08:44:22 · 925 阅读 · 0 评论 -
hive视图知多少
hive中的视图有什么用呢?一起来看看把原创 2022-01-02 11:46:07 · 1062 阅读 · 0 评论 -
Hive中group by自动排序
Hive每天一个没用的小知识。group by会根据分组字段进行排序原创 2022-01-01 21:08:34 · 3269 阅读 · 0 评论 -
order by和sort by的区别
在hive里面关于order by和sort by的区别。以及sort by在多reduce情况下的排序结果原创 2022-01-01 10:23:51 · 5260 阅读 · 0 评论 -
group by别名出错
hive中group by别名出错原创 2021-12-31 21:12:54 · 1199 阅读 · 0 评论