赵英超的博客

相互学习,共同进步

hive order by,sort by, distribute by, cluster by作用以及用法

1. order by     Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启...

2018-01-22 20:37:02

阅读数 132

评论数 0

Hive调优

在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低。 Hive有针对性地对不同的查询进行了优化。在Hive里可以通过修改配置的方式进行优化。   以下,几种方式调优的属性。   1、列裁剪   在通过Hive读取数据的时候...

2018-01-22 20:31:43

阅读数 199

评论数 0

Hive 索引

hive里的索引是什么?   索引是标准的数据库技术,hive 0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有“键(key)”的概念,用户可以在某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。 Hive的索引功能现在还相对较晚...

2018-01-22 19:35:41

阅读数 158

评论数 0

hive视图

可以先,从MySQL里的视图概念理解入手         视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表。在数据库中,存放的只是视图的定义,而不存放视图包含的数据项,这些项目仍然存放在原来的基本表结构中。         视图可以被定义为多个表的连接...

2018-01-22 17:25:33

阅读数 181

评论数 0

Hive 分区 分桶使用

为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。   分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。     分区是一种根据“分区列”(partition column)的值对表进行粗略...

2018-01-22 17:17:33

阅读数 1227

评论数 1

Hive调优技巧汇总

参考:http://blog.csdn.net/beckham008/article/details/23741151?utm_source=tuicool&utm_medium=referral 1.设置合理solt数 mapred.tasktracker.map.tas...

2018-01-08 19:38:16

阅读数 2637

评论数 0

Hive – partition table query failed when stored as parquet

Hive is developed by Facebook to analyze and extract useful information from their huge data but now it is very popular in other organizations too su...

2018-01-08 19:20:54

阅读数 253

评论数 1

提示
确定要删除当前文章?
取消 删除