hive
乖乖猪001
这个作者很懒,什么都没留下…
展开
-
hive语法在presto语法差异转化
1、字段切分hive实现:select results,split_resultsfrom tableLATERAL VIEW explode(split(results,'\\|')) t1 as split_results;presto实现:select results,split_resultsfrom tablecross JOIN unnest(split(results, '|')) as t (split_results);2、时间戳转日期时间time转载 2021-07-16 13:35:39 · 540 阅读 · 0 评论 -
HIVE / KYLIN的日期函数
KYLIN:SELECT TIMESTAMPADD(DAY, -7, CURRENT_TIMESTAMP) -- 2021-04-17 17:48:25SELECT TIMESTAMPADD(DAY, -7, CURRENT_DATE) --2021-04-17SELECT (YEAR(TIMESTAMPADD(DAY, -7, CURRENT_DATE)) * 10000 + MONTH(TIMESTAMPADD(DAY, -7, CURRENT_DATE)) * 100 + DAYO原创 2021-04-25 17:55:15 · 940 阅读 · 0 评论 -
Hive的mapjoin原理与参数说明
一、 Map Join原理Map Join介绍MapJoin顾名思义,就是在Map阶段进行表之间的连接,map阶段直接拿另外一个表的数据和内存中表数据做匹配。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。通常用于一个很小的表和一个大表进行join的场景。MapJoin的原理及过程执行过程如上图:首先是在...原创 2020-04-01 14:40:55 · 5811 阅读 · 0 评论 -
解决hive注释中文乱码的
hive中建表以后,desc [tablename]查看表结构,发现表结构的中文字段为乱码。原因是hive的元数据是由Mysql管理,所以直接修改Mysql的字符编码格式就可以解决,数据库 Metastore 中执行以下 5 条 SQL 语句: (1)修改...原创 2019-12-31 14:18:37 · 198 阅读 · 1 评论 -
hive的UDF开发部署
添加maven依赖 <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <versi...原创 2019-10-24 11:44:59 · 222 阅读 · 0 评论 -
Hive数据倾斜解决方案
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均...转载 2019-08-16 09:22:59 · 127 阅读 · 0 评论 -
Hive基本使用
一、Hive的几种数据模型内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse)外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息)分区表 (Partition Table将数据按照设定的条件分开存储,提高查询效率,分区-----> ...转载 2019-08-01 13:48:15 · 145 阅读 · 0 评论 -
hive字符串函数
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;72. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回...转载 2019-06-26 13:37:39 · 3027 阅读 · 0 评论 -
Hive整合HBase
版本如下:hadoop-2.7.2zookeeper-3.4.6hive1.2.1hbase-1.2.11Hive整合Hbase,其实原理非常简单,因为hive实际存储也是存储在HDFS上,HBase的存储也是依赖于HDFS的,所以实际上还是做了表的维护,也就是元数据的构建,数据本身一直是在HDFS的。1、修改hive-site.xml文件,是在hive的conf目录下<pro...原创 2019-03-01 14:30:21 · 183 阅读 · 0 评论