Hive
xxydzyr
愿有岁月可回首,且以深情共白头!@猪头
展开
-
Hive MR优化
Hive MR优化文章目录Hive MR优化1. map reduce个数选择2. 调整一批运行的map数3. 动态调整4. 设置合理的reduce启动时间5. 设置sort时的内存6. 对map的输出结果进行压缩,提升从map到reduce的传输效率7. 对于复杂的任务,还需要通过并行来提升整体运行速度1. map reduce个数选择在这方面,尤其是map的选择,基本上决定了整个job的...原创 2019-09-18 10:29:16 · 428 阅读 · 0 评论 -
Hive模式设计
Hive模式设计文章目录Hive模式设计关于分区按时间分区的优点唯一键和标准化避免标准化的主要原因分桶表数据存储关于分区HDFS用于设计存储数百万的大文件,而非数十亿的小文件,使用过多分区可能导致的一个问题就是会床架内大量的非必须的Hadoop文件和文件夹。在 《Hive编程指南》中,之前的解决方案是将数据转存在Amazon S3上。MapReduce 会将一个任务(job)转换成多个任务...原创 2019-09-19 09:33:22 · 314 阅读 · 0 评论 -
HiveQL索引
HiveQL索引文章目录HiveQL索引创建索引重建索引显示索引删除索引实现一个定制化的索引处理器索引的其他信息见我的另外一篇博客。Hive只有有限的索引功能。Hive中没有普通关系型数据库中键的概念,但是还是可以对一些字段建立索引来加速某些操作的。一张表的索引数据存储在另外一张表中。当逻辑分区实际上太多太细而几乎无法使用时,建立索引也就成为分区的另一个选择。建立索引可以帮助裁剪掉一张表的...原创 2019-09-19 09:32:46 · 265 阅读 · 0 评论 -
HiveQL视图
HiveQL视图文章目录HiveQL视图使用视图来限制基于条件过滤的数据动态分区中的视图和map类型视图其他相关视图可以允许保存一个查询并像对待表一样对这个查询进行操作。这是一个逻辑结构,因为它不像一个表会存储数据。换句话说,Hive目前暂不支持物化视图。当一个查询引用一个视图时,这个视图所定义的查询语句将和用户的查询语句组合在一起,然后供Hive制定查询计划。从逻辑上讲,可以想象为Hive...原创 2019-09-19 09:31:53 · 344 阅读 · 0 评论 -
HiveQL:查询
HiveQL:查询文章目录HiveQL:查询SELECT ...FROM 语句LIMIT 语句什么情况下Hive可以避免进行MapReduceWHERE 语句关于浮点数比较join 语句join优化LEFT SEMI-JOINmap-side JOINORDER BY 和 SORT BY含有SORT BY 的 DISTRIBUTE BYCLUSTER BYxxx.by 之前的相关笔记:抽样查询数...原创 2019-09-19 09:30:38 · 373 阅读 · 3 评论 -
Hive常用函数
Hive常用函数文章目录Hive常用函数数学函数聚合函数表生成函数其他内置函数该部分来源 《Hive编程指南》 第六章数学函数聚合函数表生成函数其他内置函数...原创 2019-09-19 09:29:28 · 133 阅读 · 0 评论 -
Hive数据定义
Hive数据定义文章目录Hive数据定义Hive中的数据库创建一个数据库:查看数据库目录:使用数据库:删除数据库:修改数据库Hive中的表创建表查询表信息管理表(内部表)外部表复制表结构时有无 `EXTERNAL` 关键字与内部表,外部表的影响内部分区表外部分区表自定义表的存储格式删除表hadoop回收站功能修改表Hive修改时的"钩子"Hive防误删除Hive中的数据库创建一个数据库:命...原创 2019-09-19 09:27:57 · 300 阅读 · 0 评论 -
Hive数据类型和文件格式
Hive数据类型和文件格式Hive基本数据类型数据类型长度例子TINYINT1 byte 有符号整数20SMALINT2 byte 有符号整数20INT4 byte 有符号整数20BIGINT8 byte 有符号整数20BOOLEAN布尔类型,true或者falseTRUEFLOAT单精度浮点数3.14159DO...原创 2019-09-19 09:24:59 · 288 阅读 · 0 评论 -
Hive编程指南整理部分基础概念
Hive编程指南整理部分基础概念文章目录Hive编程指南整理部分基础概念部分笔记Hive服务Hive中的变量和属性命名空间Hive CLIHive查看操作命令历史在Hive中使用Hadoop的dfs命令Amazon S3部分笔记MapReduce任务的启动过程需要消耗较长的时间,所以Hive的查询延迟比较严重。Hive不支持OLTP(联机事务处理)所需的关键功能,而更接近成为一个O...原创 2019-09-19 09:24:04 · 218 阅读 · 0 评论 -
Hive调优
Hive调优文章目录Hive调优使用 EXPLAIN限制调整JOIN 优化本地模式并行执行严格模式调整mapper 和 reducer 个数JVM重用动态分区调整推测执行虚拟列使用 EXPLAIN在查询语句前加上 EXPLAN 关键字,然后来查询下查询计划和其他一些信息。这个查询本身是不会执行的。首先会打印出抽象语法树。它表明Hive 是如何将查询解析成 token(符号) 和 liter...原创 2019-09-19 09:34:32 · 181 阅读 · 0 评论