大数据-Hive
OkidoGreen
这个作者很懒,什么都没留下…
展开
-
HIVE和HBASE区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种K转载 2015-06-07 20:49:23 · 1424 阅读 · 0 评论 -
分析函数系列之sum(col1) over(partition by col2 order by col3):实现分组汇总或递增汇总
https://blog.csdn.net/rfb0204421/article/details/7672207https://blog.csdn.net/wawmg/article/details/40840093语法:sum(col1) over(partition by col2 order by col3 )准备数据:DEPT_IDENAME...转载 2018-12-25 16:46:36 · 4234 阅读 · 1 评论 -
[Hive]用concat_w实现将多行记录合并成一行
https://blog.csdn.net/yeweiouyang/article/details/41286469https://blog.csdn.net/waiwai3/article/details/79071544需求:对用户的订单进行分析,将不同订单类型分别多少单展示出来,每个用户一行原数据:user order_type order_numberuser...转载 2018-12-27 18:41:59 · 8716 阅读 · 0 评论 -
hive中UDF开发:解析json对象和解析json数组对象
https://blog.csdn.net/oTengYue/article/details/70255202hive默认函数:+-------------------------------------------------------------------+ json +---------------转载 2018-04-03 14:26:13 · 4255 阅读 · 0 评论 -
Hive 基础之:分区、桶、Sort Merge Bucket Join
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 joi转载 2016-10-26 11:40:20 · 1388 阅读 · 0 评论 -
Hadoop Hive sql语法详解4--DQL 操作:数据查询SQL
1.基本的Select 操作如何实现?2.基于Partition的查询如何实现?3.如何实现join,是否支持左连接,右连接?4.hive数据如何去重?5.ORDER BY 是否全局排序,只有一个Reduce任务?6.SORT BY 是否全局排序?7.hive是否支持exists?8.Hive不支持所有非等值的连接,为什么?1 基本的Select 操作转载 2016-10-26 11:53:49 · 2706 阅读 · 0 评论 -
Hive中Order by和Sort by的区别是什么?
Hive基于HADOOP来执行分布式程序的,和普通单机程序不同的一个特点就是最终的数据会产生多个子文件,每个reducer节点都会处理partition给自己的那份数据产生结果文件,这导致了在HADOOP环境下很难对数据进行全局排序,如果在HADOOP上进行order by全排序,会导致所有的数据集中在一台reducer节点上,然后进行排序,这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败转载 2016-10-26 12:11:45 · 11523 阅读 · 1 评论 -
Hadoop Hive sql语法详解5--HiveQL与SQL区别
1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.key;转载 2016-10-26 12:09:34 · 5770 阅读 · 0 评论 -
Hadoop Hive sql语法详解3--DML 操作:元数据存储
hive增删改查与传统数据的区别是什么?hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。DML包括:INSERT插入、UPDATE更新、DELETE删除•向数据表内加载文件•将查询结果插入到Hive表中•0.8新特性 insert into向数据转载 2016-10-26 11:43:51 · 961 阅读 · 0 评论 -
Hadoop Hive sql语法详解2-修改表结构
hive同样也面对传统数据库的一些操作,那么hive1.如何增加分区、删除分区?2.如何重命名表?3.如何修改列的名字、类型、位置、注释?4.如何增加/更新列?5.如何增加表的元数据信息?表添加一列 :hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);复制代码添加一列并增加列字转载 2016-10-26 11:04:10 · 1264 阅读 · 0 评论 -
Hadoop Hive sql语法详解1-认识hive及DDL操作
hive或许我们有一个整体的认识,可以转换为mapreduce,那么具体是如何做的那?1.编写的mapreduce能否成为hive插件那?2.hive如何创建?3.hive是如何查询数据的?1.认识hive: Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据转载 2016-10-26 10:25:43 · 1566 阅读 · 0 评论 -
hive实例讲解实现in和not in子句
目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户,字段只有一个uid),这两个表都包含一个字段,uid。 in查询如果要查询当天登陆的注册用户,需要用in查询,hive sql如下:select logi转载 2016-10-26 10:22:13 · 3985 阅读 · 0 评论 -
使用java连接hive,并执行hive语句详解
安装hadoop 和 hive我就不多说了,网上太多文章 自己看去首先,在机器上打开hiveservice[html] view plain copyhive --service hiveserver -p 50000 & 打开50000端口,然后java就可以使用java连了,需要的jar包我发个图片转载 2016-09-05 19:58:23 · 9034 阅读 · 0 评论 -
java 通过jdbc驱动连接hive操作实例
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUICLI,即Shell命令行JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似WebGUI是通过浏览器访问 Hive本文主要介绍的就是第二种用户接口,直接进入正题。 1、Hive 安装:转载 2016-09-05 19:56:53 · 6629 阅读 · 0 评论 -
[Hive]Hive将一行记录拆分成多行
https://blog.csdn.net/yeweiouyang/article/details/46352845业务背景hive表test_user_browse记录了用户浏览过的商品,该表的数据如下:username productJohn product_a,product_b,product_c,product_dTom product_e,product...转载 2019-06-04 16:22:36 · 5176 阅读 · 0 评论