hive
z_xiaozhuT
学习是个孤独的过程。
展开
-
Hive的数据存储及解析
数据存储及解析我们先来看下hive中如何建表,并通过分析建表语句了解hive中数据的存储解析方式 create table tutorial ( name string, //string类型字段namenumber int, //int类型字段numberresource array, //string数组类型字段detail map //字典类型(key为字符串,v转载 2017-06-19 13:19:59 · 1094 阅读 · 0 评论 -
hive中Lateral View用法 与 Hive UDTF explode的用法
Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View?当我们想对hive表中某一列进行split之后,想对其转换成1 to N的模式,即一行转多列。hive不允许我们在UDTF函数之外,再添加其它select语句。如下,我们想将登录某个游戏的用户id放在一个字段use...转载 2018-05-09 20:44:08 · 2293 阅读 · 0 评论 -
hive解析json数组
hive中解析一般的json是很容易的,get_json_object就可以了。但如果字段是json数组,比如[{"bssid":"6C:59:40:21:05:C4","ssid":"MERCURY_05C4"},{"bssid":"AC:9C:E4:04:EE:52","appid":"10003","ssid":"转载 2018-05-09 20:42:12 · 4533 阅读 · 0 评论 -
Hive优化小结
基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select… from AjoinBon A.key= B.keywhereA.userid>10 andB.userid<10 and A.dt='20120417' and B.dt='20120417';应该改写为:select...转载 2018-04-13 15:16:03 · 277 阅读 · 0 评论 -
关于hive的一些操作记录
1、collect_set函数 需求:求用户消费的 TOP 100,需要的数据格式是:ID 消费金额 nickname 分析:消费 TOP 比较简单 group by uuid order by allCnt 可以解决,但是用户的nickname(昵称)是有多个的,随机取一个就行,但是 hive 取的数据字段中必须在 group by 中出现,取nickna...原创 2018-04-16 17:34:05 · 678 阅读 · 0 评论 -
Hive SQL优化之 Count Distinct
Hive是Hadoop的子项目,它提供了对数据的结构化管理和类SQL语言的查询功能。SQL的交互方式极大程度地降低了Hadoop生态环境中数据处理的门槛,用户不需要编写程序,通过SQL语句就可以对数据进行分析和处理。目前很多计算需求都可以由Hive来完成,极大程度地降低了开发成本。目前,Hive底层使用MapReduce作为实际计算框架,SQL的交互方式隐藏了大部分MapReduce的细节。这种细...转载 2018-03-22 11:04:12 · 450 阅读 · 0 评论 -
Hive报错,显示已经有一个Derby数据库启动了(spark同)
在系统安装完hive,还未将mysql指定为元数据仓库的时候。运行hive的过程中,易产生一种不稳定的状态。情形一:已经有一个hive连接在访问Derby创建的metastore_db文件夹,由于Derby数据库自身的缺点--仅支持一个链接对其进行访问,所以这时,如果再有一个终端调用hive,就有第二个链接访问Derby数据库了,就会抛出这个异常。解决方法很简单。用mysql作为元数据仓库,mys...转载 2018-03-05 16:03:17 · 2158 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,转载 2017-12-15 19:00:56 · 337 阅读 · 0 评论 -
Hive优化
1.概述 本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map转载 2017-09-25 17:59:41 · 551 阅读 · 0 评论 -
Hive中避免科学计数法表示浮点数和长整数
在Hive中进行计算的时候经常会遇到数据结果以科学计数的方式显示出来,这并不是原本想要的结果。可以考虑用【cast(列名 as bigint/decimal(m,n))】的方式避免科学计数法结果的出现。1、浮点数非科学计数法展示[sql] view plain copyhive> select pay_uid_rate_90,cast(pay_uid_rate_90 as decimal(3...转载 2018-05-09 20:45:26 · 10706 阅读 · 0 评论