hive
阿豪963
这个作者很懒,什么都没留下…
展开
-
第一章 hive的基本概念
1 hive基本概念Hive是一个以Apache Hadoop为基础的数据仓储基础设施。Hive的设计目标是使得数据汇总更加简单和针对大容量数据的查询和分析。Hive的SQL为用户提供了多种地方来融合他们自己的方法实现自定义分析;Hive不是为事务联机处理设计的。它是用于处理传统数据仓储任务。2 Hive数据组织结构Databases:命名空间方法用来避免tables,views,partitio...翻译 2018-05-29 13:00:45 · 213 阅读 · 0 评论 -
第二章 hive简介及安装
1 Hive简介在Hadoop生态圈中属于数据仓库的角色。Hive能够管理Hadoop中的数据,同时可以查询Hadoop中的数据。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制; Hive定义了简单的类SQL查询语言,称为HQL ,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发...原创 2018-05-29 13:11:55 · 246 阅读 · 0 评论 -
02-Hive连接JOIN用例详解
数据准备:创建数据-->创建表-->导入数据首先创建两个原始数据的文件,这两个文件分别有三列,第一列是id、第二列是名称、第三列是另外一个表的id。通过第二列可以明显的看到两个表做连接查询的结果:[xingoo@localhost tmp]$ cat aa.txt 1 a 32 b 43 c 1[xingoo@localhost tmp]$ cat bb.txt 1 xxx ...原创 2018-06-12 22:58:08 · 372 阅读 · 0 评论 -
03-Hive的数据倾斜
1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题3、主要表现任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完...转载 2018-06-12 23:10:00 · 139 阅读 · 0 评论 -
04-Hive 优化策略
一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优化,使 数据倾斜不成问题4、count...转载 2018-06-12 23:24:35 · 276 阅读 · 0 评论 -
05-Hive的连接3种连接方式
一、CLI连接二、HiveServer2/beeline1、修改 hadoop 集群的 hdfs-site.xml 配置文件2、修改 hadoop 集群的 core-site.xml 配置文件三、Web UI 一、CLI连接进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Class path contains multiple SLF4J bi...转载 2018-06-12 23:37:29 · 2181 阅读 · 1 评论 -
06-hive面试题
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03...转载 2018-06-12 23:51:39 · 1336 阅读 · 0 评论 -
hive和hbase结合
摘要Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询使用1.从Hive中创建HBase表使用HQL语句创建一个指向HBase的Hive表CREATE TABLE hbase_table_1(key int, value string) //Hive中的表名hbase_table_1STORED BY 'org.apa...原创 2018-06-24 20:05:16 · 310 阅读 · 1 评论