Hive数据仓库构建
Wflowerd
数据、报表相关技术经验分享
展开
-
alter table ...add partition...location... 用法
alter table ...add partition...location...原创 2022-10-27 10:51:50 · 1456 阅读 · 0 评论 -
hivesql 列转行,并用逗号分隔
hivesql 列转行原创 2022-07-07 17:23:41 · 1644 阅读 · 0 评论 -
hivesql中 exists 用法
sql exists原创 2022-07-07 16:33:02 · 4962 阅读 · 0 评论 -
hive架构设计与运行流程 图解
Hive是基于Hadoop的数据仓库,使用HQL作为查询接口、HDFS作为存储底层、mapReduce作为执行层,基于Hadoop平台解决了企业数据仓库构建的核心技术问题,证明了Hadoop平台的强大。从而进一步降低了Hadoop使用的准入门槛。以下为hive的架构设计与运行流程.用户接口主要有三个:CLI命令行,Client 和 Web UI.metaStore: hive 的元数据结构描述信...原创 2018-05-19 15:55:22 · 1770 阅读 · 1 评论 -
hive数据模型
Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket原创 2018-05-19 17:14:19 · 1471 阅读 · 0 评论 -
hive数据文件格式和压缩格式
.文件格式文件格式按面向的存储形式不同,分为面向行和面向列两大类文件格式。面向行、列类型 类型名称是否可切割计算优点缺点适用场景面向行文本文件(.txt)YES查看编辑简单无压缩占空间大,传输压力大,数据解析开销大学习练习使用面向行SequenceFile序列文件格式(.seq)YES自支持、二进制KV存储,支持行和块的压缩本地查看不方便,小文件合并成KV格式后不易查看内部数据生产环境使用map输...原创 2018-05-19 20:58:15 · 765 阅读 · 0 评论 -
hive表推到mysql表的方式
1) sqoop 第三方工具包(插件plugin),实现的是hive(非关系型数据源)与关系型数据库相互传输数据的最常用组件。 其它的如datax是类似的插件。2) 自行实现 A: hive, B:mysql A->B之间,第一种是用API方式,第二种是用脚本方式,多见用于脚本方式。 原理:把数据通过落地到文件中转一下,实现两...原创 2018-10-09 21:57:29 · 1010 阅读 · 1 评论 -
hive中grouping sets的使用
GROUPING SETS:根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果集进行UNION ALL GROUPING__ID:表示结果属于哪一个分组集合,属于虚字段 CUBE:根据GROUP BY的维度的所有组合进行聚合。 ROLLUP:为CUBE的子集,以最左侧的维度为主,从该维度进行层级聚合。 关于grouping sets的使用...原创 2018-10-27 20:59:34 · 15997 阅读 · 1 评论