HIVE
香帅_Daniel
Daniel Wu
展开
-
04Hadoop分布式文件系统HDFS(入门)
第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop发展历史(了解)1.3 Hadoop三大发行版本(了解)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache 版本最原始(最基础)的版本,对于入门学习最好。2006Cloudera内部集成了很多大数据框架,对应产品CDH 。2008Hortonworks文档较好,对应产品HDP 。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP 。原创 2022-05-25 17:29:46 · 599 阅读 · 0 评论 -
彻底解决Hive小文件问题
最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。我去hdfs目录查看了一下该目录:发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一下小文件吧:insert into test select * from table distribute by floor (rand()*5);这里使用distribute by进转载 2021-11-29 23:30:33 · 776 阅读 · 0 评论 -
hive拉链表
#拉链表: org.apache.hadoop.hive.ql.io.AcidoutputFormat或者bucketedcreate table groupbyorder (buytime date,name string,pay decimal (10,2))row format delimitedfields terminated by ','lines terminated by '\n'stored as textfilelocation '/kb12/hive/groupby原创 2021-07-11 11:39:15 · 195 阅读 · 0 评论 -
hive优化(数据倾斜)
#hive优化(数据倾斜)#问题描述: 倾斜 小文件join大文件 内容倾斜 JOBS多 join union sub_query count(distinct) 建议使用group by,因为在hive底层中,自带对group by 进行优化 #解决方案: 建模 分层=>轻量聚合 分区=>避免数据交换 压缩=>减少体量 配置优化 合理减少job,并行无依赖job,增加jvm重用 合理控制mappe原创 2021-07-10 22:47:23 · 112 阅读 · 4 评论 -
创建maven工程
#udf#创建maven工程#pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency> #创建继承自UDF的自定义类 import org.apache.hadoop,hive.ql.exe原创 2021-07-10 22:45:34 · 84 阅读 · 0 评论 -
hive 数据类型、表结构和函数
#hive 数据类型 java mysql hive 字符 char[]/String char(n)/varchar(n) string数值 byte/short/int/long tinyint/smallint/int/bigint int/bigint BigInteger decimal(37,18) decimal(38,18) float/double BigDecimal布尔 boolean bi原创 2021-07-10 22:38:53 · 551 阅读 · 0 评论 -
一键启停hive脚本
#编写hive脚本[root@singlelucky ~]# ls bak kb12 script test2.log text.log [root@singlelucky ~]# cd script [root@singlelucky script]# ls ALLOW_RM_SRC_LOG cha01 cha01.sh cha02.sh.bak deploy.sh ls.log my.cnf mysql.cnf [root@singlelucky script]# mv原创 2021-07-08 19:57:06 · 499 阅读 · 2 评论 -
hive中端口10000
关于在hive中无法查询到端口10000的问题 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20210616195005301.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Njc4Nzc4OA==,size_16,color_FFFFFF,t_70#...原创 2021-06-16 19:53:43 · 2092 阅读 · 0 评论 -
Hive 安装
#1、解压和改名hive tar -zxvf /opt/download/hadoop/apache-hive-3.1.2-bin.tar.gz -C /opt/software/ mv /opt/software/apache-hive-3.1.2-bin /opt/software/hive312#2、配置cd /opt/software/hive312/conf mv hive-default.xml.template hive-default.xml vim hive-site.xm原创 2021-07-08 19:29:57 · 91 阅读 · 0 评论