HIVE
从前慢
这个作者很懒,什么都没留下…
展开
-
hive的函数大全
1.Hive分析窗口函数(1)SUM,AVG,MIN,MAX,count()关键是理解ROWS BETWEEN含义,也叫做WINDOW子句:PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING:表示到后面的终点over(order by salary range between 50 preceding and 150 following)每行原创 2021-08-13 14:14:01 · 224 阅读 · 0 评论 -
HIVE的基础知识
Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。1. Hive是什么Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类sql的查询功能。Hive处理的数据存储在hdfs文件。Hive分析数据底层是mapreduce。执行程序运行在yarn上。2.优缺点优点:(1)操作接口采用类sql语法原创 2021-08-13 11:24:27 · 258 阅读 · 0 评论 -
hive中常用的set设置
–设置引擎为spark:若内存允许,优先考虑使用sparkset hive.execution.engine=spark;–打开动态分区后,允许所有分区都是动态分区模式set hive.exec.dynamic.partition.mode = nonstrict;– 是否启动动态分区set hive.exec.dynamic.partition=true;–小文件合并参数–设置map端输出进行合并,默认为true–文件数目小,容易在文件存储端造成瓶颈,给HDFS带来压力,影响处理效率。对此原创 2021-08-13 10:53:18 · 3183 阅读 · 0 评论 -
hive常用的函数以及知识
1.Hive:insert into table 与 insert overwrite table 区别不清理以上已经插入的记录,直接执行insert overwirte,并查询分析结果两者的异同insert into 与 insert overwrite 都可以向hive表中插入数据,但是insert into直接追加到表中数据的尾部,而insert overwrite会重写数据,既先进行删除,再写入。如果存在分区的情况,insert overwrite会只重写当前分区数据。2.Hive实现自原创 2021-08-11 09:49:23 · 396 阅读 · 0 评论 -
UDF自定义函数的开发流程
准备好idea,安装jdk,以及系统配置2.maven的配置(1)系统配置,setting本地仓库以及代理的修改Path下(2)连接外网的代理设置:目前是为了在线下载jar包(3)idea上的配置配置maven配置jdk3.创建一个maven项目加载对应的jar包4.继承UDF类,使用evaluate5.开发验证后,打jar包6.然后jar布置到hive环境上,在自定义一个函数。如:hive>add JAR /root/hivedata/udf.ja.原创 2021-08-06 11:26:25 · 307 阅读 · 0 评论 -
有关udf自定义函数的开发流程
准备好idea,安装jdk,以及系统配置maven的配置:(1)系统配置,setting本地仓库以及代理的修改;Path下查看是否配置成功(2) 连接外网的代理设置:目前是为了在线下载jar包(3)idea上的配置配置maven配置jdk3. 创建一个maven项目:加载对应的jar包4.继承UDF类,使用evaluate5.开发验证后,打jar包6.然后jar布置到hive环境上,在自定义一个函数。如:hive>add JAR /root/hive.原创 2021-08-06 11:18:19 · 125 阅读 · 0 评论 -
hive的知识
一. Hive是什么Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能 够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类sql的查询功能。二.Hive的执行过程1.hive的核心是驱动引擎:Hive处理的数据存储在hdfs文件Hive分析数据底层是mapreduce执行程序运行在yarn原创 2021-07-16 16:39:30 · 259 阅读 · 0 评论 -
hive的知识以及Hql优化点
1.含义:Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载(ETL),可以将结构化的数据文件hdfs映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,实现快速MapReduce的统计。使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。适用于离线的批量数据计算。通过元数据来描述Hdfs上的结构化文本数据,通俗点来说,就是定义一张表来描述HDFS上的结构化文本,包括各列数据名称,数据类型是什么等,方便我原创 2021-05-27 17:24:42 · 490 阅读 · 0 评论