hive
爱学习的小明同学
一名大数据开发工程师。。。
展开
-
hive的基础理论
1. hive的介绍 什么是hive:Hive是基于hadoop的一个数据仓库工具,实质就是一款基于hdfs的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理。 hive的工作方式:把存放在hive中的数据都抽象成一张二维表格,提供了一个类似于sql语句的操作方式,这些sql语句最终被hive的底层翻译成为MapReduce程序,最终在hadoop集群上运行,结果也...原创 2019-01-16 09:37:20 · 146 阅读 · 0 评论 -
hive的数据倾斜以及优化策略
1. hive的数据倾斜 介绍:只要在分布式一定有shuffle,避免不了出现数据倾斜,在混淆数据的过程中出现数据分布不均匀。比如:在MR编程中reducetask阶中的数据的大小不一致,即很多的数据集中到了一个reducetask中,hive的数据倾斜就是mapreduce的数据倾斜 maptask reducetask最后就是reducetask阶段的数据倾斜。 不会产生数据倾斜的场景...原创 2019-01-16 09:50:18 · 376 阅读 · 0 评论 -
hive的典型应用场景
案例一: 需求:现有这么一批数据,现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数。数据: 用户名,月份,访问次数 A,2015-01,5 A,2015-01,15 B,2015-01,5 A,2015-01,8 B,2015-01,25 A,2015-01,5 A,2015-02,4 A,2015-02,6 B,2015-02,10 B,2015-02,5 A,2...原创 2019-01-16 09:48:51 · 707 阅读 · 0 评论 -
hive中对多字节的处理
现在有一批数据: 01||zs||18 02||ls||19 03||jj||10 每一行的数据的分割符是||,是一个多字节的分隔符,默认的hive只支持单字节的分隔符,上面的数据时||多字节,不支持。解决方案: method01:使用 RegexSerDe 通过正则表达式来抽取字段 #建表语句 create table t_bi_reg(id string,name string,a...原创 2019-01-16 09:47:32 · 582 阅读 · 0 评论 -
hive的常见函数
查看函数的介绍(必读): show functions ; #查看hive中的所有内置函数 desc function extended 函数名; #查看某个函数的详细介绍 1.hive中常见的内置函数 1)集合函数 创建数组 array(ele1,ele2,ele3) 例:select array(1,2,3,4); 判断值是否在数组中 array_contains...原创 2019-01-16 09:46:00 · 175 阅读 · 0 评论 -
hive的视图
创建视图:create view view_piaofang as select * from t_name; 查看视图 :show tables; #既有表又有视图 show views #只查看视图 查看视图的详细信息 desc formatted|extended 删除视图 drop view view_name; 使用视图的注意点: Hive中的试图,仅仅是一个sql语句的快捷...原创 2019-01-16 09:43:49 · 3477 阅读 · 0 评论 -
hive的数据类型
1.基本数据类型 因为hive也是java语言编写的,所以他的基本数据类型和java的大致相同: 2.基本数据类型 (1)array(数组) 特点:个数可以不相同,但是类型相同 例:以family表(name string familes array<string>)为例: #建表语句: create table t_family (name string, familes...原创 2019-01-16 09:42:34 · 130 阅读 · 0 评论 -
hive的语法命令介绍
1.hive的基本语法: create databases mydb #创建数据库 show databases #查看所有的库 use mydb #切换数据库 create table t_user(id int ,name string,age int) #创建表 create table t_user(id int ,na...原创 2019-01-16 09:41:16 · 271 阅读 · 0 评论 -
hive的环境搭建
因为hive是基于hadoop的,所以一定要有hadoop的平台支撑: hadoop分布式集群搭建:http://blog.51cto.com/14048416/2341491 1. 内嵌Derby版本: 安装步骤: 上传安装包:apache-hive-2.3.2-bin.tar.gz 解压安装包:tar -zxvf apache-hive-2.3.2-bin.tar.gz -C /app...原创 2019-01-16 09:39:17 · 108 阅读 · 0 评论 -
hive的执行流程
1. 执行流程概述 查看hive语句的执行流程:explain select ….from t_table …; 查看hive语句的执行流程:explain select ….from t_table …; 操作符是hive的最小执行单元 Hive通过execmapper和execreducer执行MapReduce程序,执行模式有本地模式和分布式模式 每个操作符代表一个 HDF...原创 2019-01-16 09:51:38 · 988 阅读 · 0 评论