![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
中琦2513
天道酬勤
展开
-
Hive的SQL编译源码详解
看图完事:原创 2020-07-06 11:36:29 · 2753 阅读 · 2 评论 -
Hive窗口函数row_number案例
数据文件是:rownumbertest.txt字段信息是:id,sex,age,name1,男,18,张三2,女,18,李四3,女,20,王五4,男,18,赵六5,男,18,刘七6,男,19,石九7,男,38,黄渤8,女,22,刘嘉玲9,女,23,王菲10,女,28,刘亦菲11,女,18,赵丽颖用户信息表create database if not exists hive_test;use hive_test;drop table if exists rown原创 2020-05-31 20:43:27 · 1083 阅读 · 0 评论 -
Hive--笔试题05_2--求TopN
现在有这样一份数据:1,huangxiaoming,45,a-c-d-f2,huangzitao,36,b-c-d-e3,huanglei,41,c-d-e4,liushishi,22,a-d-e5,liudehua,39,e-f-d6,liuyifei,35,a-d-e字段的意义:id,name,age,favorsid,姓名,年龄,爱好其中需要注意的是:每...原创 2020-02-29 19:16:56 · 2097 阅读 · 0 评论 -
Hive最全常用操作大全
1、建库 create database mydb; create database if no exists mydb; create database if no exists mydb location "/aa/bb";2、查询数据库 查询库列表:show databases; 查询库详细信息:desc database [exten...原创 2018-11-29 07:18:48 · 24492 阅读 · 0 评论 -
Hive的分区和分桶详解
create database if not exists myhive1;use myhive1;drop table if exists student;create table student(id int, name string, sex string ,age int, department string) row format delimited fields terminat...原创 2018-11-29 07:22:41 · 26525 阅读 · 2 评论 -
Hive经典最全笔试题系列
现在的大数据开发,越来越趋向于编写SQL代替程序开发,比如MapReduce的Hive客户端,Kafka,Spark,Flink等都是支持SQL操作的。所以学好SQL是重中之重。是每个大数据程序开发工作者的必备技能。本人收集了大量的Hive或者说是SQL的笔试题之类:准备给各位准备一个Hive或者SQL的笔试题专题:这是列表:1、Hive--笔试题01--自连接实现2、Hiv...原创 2019-06-25 12:32:33 · 16569 阅读 · 3 评论 -
Hive--笔试题01--自连接实现
有以下一份数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...原创 2019-06-25 12:47:28 · 13543 阅读 · 8 评论 -
Hive--笔试题01--窗口分析函数实现
有以下一份数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...原创 2019-06-25 12:52:07 · 11182 阅读 · 3 评论 -
Hive内置函数
数学函数下面表格中的函数为Hive的内置数学函数,大部分当参数为NULL时返回NULL。 返回类型 函数名 描述 bigint round(double a) 返回a经过四舍五入的BIGINT值 double round(doubl...原创 2019-06-25 18:02:17 · 7829 阅读 · 0 评论 -
Hive--笔试题05_1--求TopN
现在有一个面试题场景举例北京市学生成绩分析成绩的数据格式exercise5_1.txt 文件中的每一行就是一个学生的成绩信息。字段之间的分隔符是","时间,学校,年纪,姓名,科目,成绩样例数据2013,北大,1,黄渤,语文,972013,北大,1,徐峥,语文,522013,北大,1,刘德华,语文,852012,清华,0,马云,英语,612015,...原创 2019-06-26 13:28:39 · 9421 阅读 · 4 评论 -
Hive 数据倾斜解决方案(调优)
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的原创 2017-09-24 23:26:32 · 46301 阅读 · 0 评论 -
Hive学习之抽样(Sampling)
当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。 Hive支持桶表抽样和块抽样,下面分别学习。所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。桶表抽样的语法如下:[sql] view plai原创 2017-07-06 21:23:23 · 46707 阅读 · 0 评论 -
Hive基础知识介绍
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Int原创 2017-04-06 12:05:53 · 52502 阅读 · 2 评论 -
Hive学习总结
一、Hive的基本概念1.1 hive是什么?(1)Hive是建立在hadoop数据仓库基础之上的一个基础架构;(2)相当于hadoop之上的一个客户端,可以用来存储、查询和分析存储在hadoop中的数据;(3)是一种SQL解析引擎,能够将SQL转换成Map/Reduce中的Job在hadoop上执行。1.2 hive的数据存储特点(1)数据存储是基转载 2016-01-14 13:23:17 · 46554 阅读 · 1 评论 -
Hive 五种数据导入方式介绍
问题导读: 1、Hive五种数据导入方式有哪些? 2、导入表命令中有无LOCAL关键字的区别? 3、使用OVERWRITE或INTO关键字的作用及区别? 4、INPATH路径的限制? 5、什么是动态分区插入? 6、动态分区插入需要做哪些设置?内容: 既然Hive没有行级别原创 2017-04-06 11:47:21 · 52047 阅读 · 0 评论 -
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过原创 2017-04-06 11:42:18 · 46279 阅读 · 0 评论 -
Hive基础知识
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(I原创 2017-03-17 10:56:25 · 46496 阅读 · 0 评论