Hive
hive
_a_0_
Who am, Where am.
展开
-
Hive的原理架构一
一、首先是概念:大体可以划分为七个方面,这样有利于理解记忆:1、由FaceBook实现并开源;2、基于Hadoop的开源数据仓库工具,用于存储结构化的数据;3、可以将结构化的数据映射为一张数据库表;4、底层数据存储在HDFS文件系统上,描述数据的数据(元数据)存储在derby或者是远程数据库中,如:mysql;5、提供一套类数据库的处理机制,HQL查询功能;6、本质是将SQL语句转换为MapRed...原创 2018-04-10 13:57:04 · 5292 阅读 · 0 评论 -
Hive UDTF 函数的编写
在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类,UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列。如果你想浏览代码:fork it on Github:https://github.com/rathboma...转载 2018-04-10 23:23:39 · 866 阅读 · 0 评论 -
Hive UDAF 函数的编写
UDAF是Hive中用户自定义的聚集函数,Hive内置UDAF函数包括有sum()与count(),UDAF实现有简单与通用两种方式,简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;在这篇博文中我们将关注Hive中自定义聚类函数-GenericUDAF,UDAF开发主要涉及到以下两个抽象类:org.apache.hadoop.hive.ql.udf.generic...转载 2018-04-10 23:14:23 · 18082 阅读 · 4 评论 -
Hive UDF 函数的编写
编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型(Hadoop&Hive基本writable类型,如Text,IntWritable,LongWriable,DoubleWritable等等),那么简单的API(org.apache.hadoop.hive.ql.exec.UDF)可以胜任。但是...转载 2018-04-10 22:54:37 · 685 阅读 · 0 评论 -
Hive影评案例二
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adve...原创 2018-04-10 22:06:28 · 863 阅读 · 0 评论 -
Hive影评案例一
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Jumanji (1995)::Adve...原创 2018-04-10 20:56:25 · 1593 阅读 · 0 评论 -
Hive面试题四
现有一份以下格式的数据:表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门:id course 1,a1,b1,c1,e2,a2,c2,d2,f3,a3,b3,c3,e编写Hive的HQL语句来实现以下结果:表中的1表示选修,表中的0表示未选修id a b c d e f1 1 1 1 0 1 02 1 0 1 1 0 13 1 ...原创 2018-04-10 16:46:40 · 650 阅读 · 0 评论 -
Hive面试题三
20140101142014010216201401031720140104102014010506201201060920120107322012010812201201091920120110232001010116200101021220010103102001010411200101052920130106192013010722201301081220...原创 2018-04-10 16:37:08 · 440 阅读 · 0 评论 -
Hive面试题二
// 建表语句:CREATE TABLE `course` ( `id` int(11) NOT NULL AUTO_INCREMENT PRIMARY KEY, `sid` int(11) DEFAULT NULL, `course` varchar(255) DEFAULT NULL, `score` int(11) DEFAULT NULL ) ENGINE=InnoDB...原创 2018-04-10 16:27:52 · 378 阅读 · 1 评论 -
Hive面试题一
现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数三个字段的意思:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,1...原创 2018-04-10 16:21:03 · 1594 阅读 · 0 评论 -
Hive 优化
1、介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成...转载 2018-04-11 13:06:17 · 178 阅读 · 0 评论