hive
花掏尽
老老实实,勤勤恳恳,继续努力(=^ ^=)
展开
-
HQL使用小问题汇总(更新中)
CASE WHEN1.不能直接判断区间,需要加and错误示范:会报错SQL 错误 [40000] [42000]: Error while compiling statement: FAILED: ParseException line 8:20 cannot recognize input near '>=' '-' '9' in expression specificationselect t.user_id, t.buy_mount, t.day, t原创 2020-12-08 09:02:52 · 357 阅读 · 0 评论 -
Error: attempt to setup a Window for datatype VARCHAR 和 Hive Runtime Error while processing row (ta
环境:这个问题在我使用CDH搭建的集群上遇到的,主要是建表的时候统一用的VARCHAR类型,不要问为什么,我也不太清楚,总之生产上就是这么做的就是了。然后执行聚合函数的窗口函数的时候报的这个错误。之前也有过这种类似的操作,但是还是第一次碰见这种错误,在我解决这个问题的过程中,出现了两种错误,我都记录了,但是不保证都是因为我说的这个原因。问题内容:第一个错误Vertex failed, vertexName=Reducer 2, vertexId=vertex_1604444511298_001原创 2020-11-06 14:14:44 · 907 阅读 · 0 评论 -
beeline 执行数据导入load data报错No files matching path
问题: 记录一次Hive导入数据找不到文件的错误 load data local inpath '/data/test/ftp/test.txt' into table test; FAILED: SemanticException Line 1:23 Invalid path ''/data/test/ftp/test.txt'': No files matching path file:/data/test/ftp/test.txt 报错找不到文件,确定当前机器确...原创 2020-06-04 07:04:59 · 3837 阅读 · 0 评论 -
写UDF和UDAF的格式
1、UDF 函数可以直接应用于 select 语句,对查询结构做格式化处理后,再输出内容。2、编写 UDF 函数的时候需要注意一下几点:a)自定义 UDF 需要继承 org.apache.hadoop.hive.ql.UDF。b)需要实现 evaluate 函数,evaluate 函数支持重载。3、步骤a)把程序打包放到目标机器上去;b)进入 hive 客户...原创 2019-08-28 21:52:42 · 410 阅读 · 0 评论 -
Hive窗口函数和排序函数
窗口函数over,其内部分为partition by 和order by 以及windos子句这三个自居; 而外部分别和序列函数以及聚合函数相组合。Over 子句Over中有partition by 和order by 以及windos字句Patition by 是用来分组的order by 是用来将组内成排排序的Windows 是设定窗口大小的:unbounded(起点)...原创 2019-08-19 15:45:53 · 617 阅读 · 0 评论 -
HIve常用函数,hive常用数据类型,Hive表
六、Hive函数1.函数自定义1)UDF (常用) 一进一出 http://blog.csdn.net/duan19056/article/details/17917253<1>UDF 函数可以直接应用于 select 语句,对查询结构做格式化处理后,再 输出内容。<2>编写 UDF 函数的时候需要注意一下几点: a)自定义 UDF 需要继承 o...原创 2019-08-14 13:17:18 · 566 阅读 · 0 评论 -
Hive常用SQL和hive优化
四、Hive SQL1.外部表和内部表区别在于删除的时候只删除元数据,而内部表删除的时候连数据都给删除了2.Hive DDL定义:Hive的数据定义语言 (LanguageManual DDL)1)建表语句· 创建普通的表: create table abc( id int ) row format delimited fields terminated by ',' s...原创 2019-08-14 13:15:46 · 346 阅读 · 1 评论 -
Hive数据倾斜优化和分区
二、Hive数据倾斜问题优化1.现象当Hive放生数据倾斜的时候,我们在使用HQL运行mr的时候可以发现,mapreduce卡在99%2.当Hive发生数据倾斜的时候我应该怎么办呢?第一种方案,数据倾斜五分就是key的数据量非常不均匀,我们可以开启map聚合的参数(hive.map.aggr=ture),开启之后会把数据现在map端进行聚合,当reduce端聚合的时候就只需要聚合m...原创 2019-08-14 13:13:05 · 1042 阅读 · 0 评论 -
Hive架构,Hive SQL和普通SQL的区别
Hive总结一、Hive架构1.架构图2.Hive架构解析1)用户接口CLI:cli即shell命令。CLI最常用CLI启动的时候会同时启动 一个Hive 副本Client: Client是Hive的客户端,用户连接HiveServer,并指出Hive Server 所在的节点以及在该节点启动它WUI:WUI是通过浏览器启动Hive2)元数据Hive将...原创 2019-06-16 17:02:41 · 1053 阅读 · 0 评论 -
Hive搭建及三种模式
Hive的安装配置:没有集群,但是如果想要远程模式的话就要多装一台准备阶段:Hadoop2.6.5和MySQL安装完毕。我们要安装的是1.2.1版本的hive上传安装包解压tar -zxvf apache-hive-1.2.1-bin.tar.gz替换和添加相关jar包修改HADOOP_HOME/share/hadoop/yarn/li...原创 2019-04-11 23:26:43 · 300 阅读 · 0 评论 -
Hive(数据仓库)介绍--架构原理---工作原理
是什么Hive是一个基于Hadoop开源的,可以存储结构化数据①的数据仓库③。官网 http://hive.apache.org/目的使不熟悉MapReduce的用户很方便的利用HQL处理对HDFS的数据进行MapReduce操作。原理概述:将结构化数据映射成一个数据库的表,并提供简单的类数据库处理机制,HQL查询功能,将SQL语句转换成MapReduce任务运行。...原创 2019-04-10 22:09:00 · 3170 阅读 · 1 评论 -
大数据端口号最全列表,不全你来打我
常见端口汇总:Hadoop:50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口19888:jobhistory WEB UI端口Zookeeper:2181 : 客户端连接zookeep...转载 2019-03-26 14:23:52 · 268 阅读 · 0 评论