hive
文章平均质量分 70
xiao_jun_0820
要自己每天都开心,不要烦恼
忘掉压力,天天好心情
展开
-
hive 访问hbase表
首先创建外部表:原创 2014-06-25 14:24:15 · 2512 阅读 · 0 评论 -
Hive 中的复合数据结构简介以及一些函数的用法说明
转自:http://my.oschina.net/leejun2005/blog/120463目录[-]一、map、struct、array 这3种的用法:1、Array的使用2、Map 的使用3、Struct 的使用4、数据组合 (不支持组合的复杂数据类型)二、hive中的一些不常见函数的用法:1、array_contains (Collection转载 2016-06-03 10:24:17 · 1948 阅读 · 0 评论 -
hive json serde
https://cwiki.apache.org/confluence/display/Hive/Json+SerDeJson SerDeSkip to end of metadataCreated by Alexander Pivovarov, last modified by Lefty Leverenz on Jan转载 2016-06-20 17:05:14 · 2653 阅读 · 0 评论 -
Hive聚合函数及采样函数详解
http://www.it165.net/pro/html/201506/42860.html?? 本文主要使用实例对Hive内建的一些聚合函数、分析函数以及采样函数进行比较详细的讲解。一、基本聚合函数 数据聚合是按照特定条件将数据整合并表达出来,以总结出更多的组信息。Hive包含内建的一些基本聚合函数,如MAX, MIN, AVG等等,同时也通过GROUPING SETS, RO转载 2016-06-23 19:05:10 · 6409 阅读 · 1 评论 -
hive1.1版本中mapjoin踩到的一个坑
可以通过设置hive.auto.convert.join.noconditionaltask.size这个参数来将一个小表变成hashtable然后作为分布式缓存文件分发到各个worker节点,进而实现Map side join。map side join有许多优势,顾名思义就是没有了reduce的过程,这样可以用来解决join的时候数据倾斜的问题。一般应用在大表和小表join的场景下,这样我原创 2016-07-21 14:22:15 · 3257 阅读 · 0 评论 -
hive压缩之小文件合并
转自:http://m.blog.csdn.net/article/details?id=43084309Hive压缩之二 小文件合并 调研背景当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。为此,当我们启动一个任务,发转载 2016-07-15 09:41:29 · 1641 阅读 · 0 评论 -
Hive锁与并发模型
Hive 并发模型使用案例并发支持 (http://issues.apache.org/jira/browse/HIVE-1293) 是数据库的必须,而且他们的使用案例很好懂。至少,我们要尽可能支持并发读和写。添加几个发现当前已经锁定的锁,是有用的。这里没有一个直接的需求添加一个API显式获取锁,所以,所有锁都是隐式获取的。 hive定义一下模式的锁(注意不需要意向转载 2016-11-10 20:53:43 · 6530 阅读 · 0 评论 -
如何在spark-shell命令行执行spark hql
前面已经有篇文章介绍如何编译包含hive的spark-assembly.jar了,不清楚的可以翻看一下前面的文章。cloudera manager装好的spark,直接执行spark-shell进入命令行后,写入如下语句:val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc) 你会发现没法执行通过,因为c原创 2015-03-17 19:02:06 · 18698 阅读 · 0 评论 -
简单点,搬砖的方式简单点,hive mysql 导入数据的UDF,分享给小伙伴们
我们使用hive一般是执行离线统计分析,然后将执行的结果导入到Mysql的表中供前端报表可视化展现来查询。导回mysql的方式有许多,以前是用sqoop导回Mysql,还有人用hive jdbc查询然后将结果拉回到代码层面,再在代码层面用mysql jdbc写回Mysql数据库。但是这两种方式都会有一个二次处理环节(虽然我们以前实现了SQL的解析可以把sqoop的操作对使用者来说透明化,比原创 2016-11-30 11:12:52 · 2184 阅读 · 0 评论 -
用codemirror实现一个自己的简单hive ql编辑器
什么是codemirror已经codemirror能干什么在这就不多说了,直接看官方文档http://codemirror.net/。首先去现在一个最新的codemirror:http://codemirror.net/codemirror.zipcodemirror自身提供了一个可复用的sql mode,里面支持了绝大多数的sql类型:text/x-sql, text/x-mysql, te原创 2017-04-05 10:34:12 · 8090 阅读 · 0 评论 -
hive 1.2.1源码编译
Hive 1.2.1源码编译依赖的Hadoop版本必须最少是2.6.0,因为里面用到了Hadoop的org.apache.hadoop.crypto.key.KeyProvider和org.apache.hadoop.crypto.key.KeyProviderFactory两个类,而这两个类在Hadoop 2.6.0才出现,否者会出现以下编译错误:[ERROR] /home/q/spar转载 2017-05-15 12:16:22 · 1729 阅读 · 0 评论 -
cdh版本hive源码编译打包
参考https://cwiki.apache.org/confluence/display/Hive/HiveDeveloperFAQ#HiveDeveloperFAQ-Mavensettings首先你得下载一分源码,这里我下载的是http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.1-src.tar.gz。(根据自己的cd原创 2017-05-15 15:43:13 · 3650 阅读 · 0 评论 -
hive parquet table 配置使用压缩
创建parquet table :create table mytable(a int,b int) STORED AS PARQUET;创建带压缩的parquet table:create table mytable(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');原创 2017-08-08 12:17:51 · 11033 阅读 · 0 评论 -
hive redis 集群模式udf 写入
前面写了一个单实例模式的redis hset写入udf,使用pipeline提高写入性能,没用连接池,因为有使用限制,就是要按唯一键mod分成许多个组然后collect_list传入一个列表,所以创建的连接很少,保证每个组里面的这个list不会太大,就没啥问题。不然在pipeline上提交的时候应该也要计数一下,每多少条sync一下,偷懒了。。。。后面正式使用的时候是将这些用户id写入了一个r原创 2017-08-11 18:39:59 · 2759 阅读 · 4 评论 -
hive udf 批量写入redis
import org.apache.hadoop.hive.ql.exec.Description;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql原创 2017-08-03 17:23:05 · 5279 阅读 · 3 评论 -
cdh5版本中的oozie hive action使用及踩坑集锦
本来的出发点是想做一个能够提交hive ql的web接口,然后我可以在接口层面做很多定制的功能,于是开始找hive restful接口相关的信息,发现Hive有个webhcat服务,可以提交hive ql然后还可以将输出写入到指定的HDFS目录上,而且还有callback功能,在执行完成后给指定URL发送消息。看了一下源代码,原理其实和Oozie差不多,也是启动了一个单mapper任务来管理JOB原创 2017-07-26 15:23:05 · 4198 阅读 · 1 评论 -
hive中使用位置符号来进行groupby和orderby
hive中有一个配置项:hive.groupby.orderby.position.alias 官方解释:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties#ConfigurationProperties-hive.groupby.orderby.position.aliashive.g原创 2016-05-18 17:11:31 · 4379 阅读 · 0 评论 -
干货长文 | 达观数据分析平台架构和Hive实践
干货长文 | 达观数据分析平台架构和Hive实践2016-02-25 文辉 大数据杂谈“ 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。本文将从Hive原理、数据分析平台架构、数据分析实战、Hive优化等四转载 2016-02-26 16:57:59 · 1509 阅读 · 0 评论 -
hive 安装
前提:安装好mysql;原创 2014-06-16 19:01:05 · 789 阅读 · 0 评论 -
flume学习(六):使用hive来分析flume收集的日志数据
前面已经讲过如何将log4j的日志shu原创 2014-07-25 16:36:26 · 13926 阅读 · 0 评论 -
java读取hive导出的数据
通过HQL语句:insert overwrite directory '/COMP/206/OUT/LDAPD_BUSI_CMNCTN_ACCU/${current_date}'select callingnum,custphone,count(*) as callcountfrom DAPD_VOICE_LOG_TMPgroup by callingnum,custphone;将原创 2014-08-01 17:32:54 · 4808 阅读 · 4 评论 -
hive 执行查询报找不到hive-builtins-0.10.0-cdh4.3.0.jar
今天执行hive带条件的查询select * from userinfo where province='江西',结果报错:java.io.FileNotFoundException: File does not exist: hdfs://master24:9000/home/hadoop/hive-0.10.0-cdh4.2.2/lib/hive-builtins-0.10.0-cdh4.2.原创 2014-06-19 13:24:17 · 1711 阅读 · 1 评论 -
hive mysql 中文乱码问题研究。
首先mysql 字符集修改1:[client] 下面增加:default-character-set = utf82:[mysqld]下面增加:character-set-server = utf83:[mysql] 下面增加:default-character-set = utf84:重启mysql数据库:service mysqld restart原创 2014-06-18 16:26:54 · 4700 阅读 · 0 评论 -
有关hive 中默认的用控制符作为分隔符的使用总结
hive 默认的字段分隔符为\001,建表的时候原创 2014-07-10 09:38:23 · 47591 阅读 · 3 评论 -
Hive几种数据导出方式
谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。 一、导出到本地文件系统 hive> insert overwrite loca转载 2014-06-19 15:03:31 · 76975 阅读 · 5 评论 -
Hive 数据倾斜总结
几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量转载 2014-06-20 11:04:37 · 1126 阅读 · 0 评论 -
hive 学习笔记
创建数据库 create database if not exists besttone;创建简单表:create table userinfo(id int,name string,age int,province string) row format delimited fields terminated by '\t';导入简单表:load data local原创 2014-06-20 16:21:14 · 3382 阅读 · 0 评论 -
oracle 通过分析函数实现求连续天数登陆的用户
首先给出yizu12014711201472120147312014731201474120147512014751201477120147812014原创 2014-08-16 13:22:04 · 6337 阅读 · 0 评论 -
hive开启本地模式执行
先讲一个hive使用的一个小技巧。对于使用惯了oracle数据库的人来说,hive中没有dual啊,想验证一些函数的执行结果很是麻烦。比如我们在oracle数据库里面可以写select (1+2) from dual可以返回3。为了保证使用习惯,我们类似的在hive中也建一张dual表:create table dual(dummy string)然后往这张表中导入一个只有一行数据的文原创 2015-01-06 17:32:08 · 10648 阅读 · 1 评论 -
hive 常用运算
hive 常用运算第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: •小于比较: •小于等于比较: •大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REG转载 2015-01-06 17:35:04 · 4152 阅读 · 0 评论 -
hive分区表增加字段会导致新增字段无法显示值的BUG
对hive分区表新增字段后,在执行插入分区的动作,会发现其实数据文件中已经有新字段值了,但是在查询的时候新字段的值还是显示为null。比如我们做一个简单的问题重现我们先创建一个分区表xj_test1,往分区dt=201501中插入一条数据:create table xj_test1(a string,b string) partitioned by (dt string)row原创 2015-05-07 14:45:15 · 14403 阅读 · 3 评论 -
hive 数据倾斜查询优化
最近发现一个JOB执行时间很长,查看日志发现卡在了reduce 99%上,一般卡在reduce最后阶段很大原因都是数据倾斜问题,这个SQL形如:selecta.id,a.puid,a.os,a.dm,a.cbn,a.cbv,a.area,a.dis,case when b.sex is not null and b.sex 'null' then b.sex else a.se原创 2015-11-18 11:43:56 · 1916 阅读 · 0 评论 -
hive jdbc中通过HiveStatement.getQueryLog无法拉取到执行日志的问题分析与解决
问题描述公司内部查询服务将hive从1.1升级到2.3.3版本之后,通过HiveStatement.getQueryLog无法拉取到执行日志了,原来是可以拉取到类似控制台执行hive时候那样的日志,包括queryid, mapreduce个数等等信息。问题排查首先将测试环境的hiveserver2开启debug模式,远程debug端口默认是8000,这里我改成了8101,因为8000被其...原创 2018-11-20 19:15:38 · 6809 阅读 · 3 评论