![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
whiteblacksheep
这个作者很懒,什么都没留下…
展开
-
Hive的分区表整理
1.分区表的介绍 在Hive中处理数据时,当处理的一张表的数据量过大的时候,每次查询都是遍历整张表,显然对于计算机来说,是负担比较重的。所以我们可不可以针对数据进行分类,查询时只遍历该分类中的数据,这样就能有效的解决问题。所以就会Hive在表的架构下,就会有分区的这个概念,就是为了满足此需求。 分区表的一个分区对应hdfs上的一个目录。 分区表包括静态分区表和动态分区表,根据分区会不会自动创建来区...原创 2019-07-23 15:53:48 · 720 阅读 · 0 评论 -
Hive的查询语句整理
select查询 hive (default)> > select * from emp; OK emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno 7839 KING PRESIDENT ...原创 2019-07-19 17:47:47 · 652 阅读 · 0 评论 -
Hive - DDL 和DML整理
1. 相关说明 DDL=Date Definition Language,数据定义语言。 学习hive的HQL的DDL相关语法,建议对照官方WIKI,因为语法参数较多,而且和SQL多有相似,不建议记忆,梳理一下,记住相关可以实现的功能和注意点以及和SQL之间的区别即可。 2.基本数据类型和分隔符 Hive基本数据类型: string int bigint float double boolean ...原创 2019-07-19 14:18:44 · 128 阅读 · 0 评论 -
hive的安装和部署
hive的产生背景 MR来开发业务逻辑:繁琐、痛苦 Hive:facebook 解决海量的结构化日志的统计问题 刚开始时是作为Hadoop项目的一个子项目的,后面才单独成为一个项目 Hive是构建在Hadoop之上的数据仓库 适合处理离线 Hive是一个客户端,不是一个集群,把SQL提交到Hadoop集群上去运行 Hive是一个类SQL的框架, HQL和SQL没有任何关系,只是类似 Hive...原创 2019-07-16 15:05:28 · 165 阅读 · 0 评论 -
hive内置常用函数补充和举例
json_tuple 函数的作用:用来解析json字符串中的多个字段 hive (default)> create table rating_json(json string); >load data local inpath '/home/hadoop/data/rating.json' overwrite into table rating_json; //导入数据 hive...原创 2019-07-21 15:00:02 · 193 阅读 · 0 评论 -
hive_topN
hive中的窗口分析函数 hive中的窗口分析函数:RANK ROW_NUMBER DENSE_RANK CUME_DIST PERCENT_RANK NTILE 但一般用的最多的还是ROW_NUMBER。 用法 COUNT(DISTINCT a) OVER (PARTITION BY c) 例如:在linux本地目录创建一个文件/home/hadoop/data/hive_row_number....原创 2019-07-21 15:55:40 · 279 阅读 · 0 评论 -
hive_beeline和hiveserver2的使用
beeline和hiveserver2 beeline和HS2(hiveserver2)的架构是C-S架构,如果想要用beeline作为与hive的交换工具,必须在hive中启动hiveserver2服务原创 2019-07-21 17:00:13 · 272 阅读 · 0 评论 -
hive的复杂数据类型
hive的复杂数据类型: Array(1,2,3,4) 装的数据类型是一样的 Map(‘a’,1,‘b’,c) key的类型一样 Struct(‘a’,1,2,34,4)装的数据是完全混乱的 Array数据类型 1.存放 创建一张存放array数据类型的表 [hadoop@hadoop001 data]$ cat hive_array.txt zhangsan beijing...原创 2019-07-22 10:49:37 · 1249 阅读 · 0 评论